JP2023027749A

JP2023027749A - 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体

Info

Publication number: JP2023027749A
Application number: JP2022092559A
Authority: JP
Inventors: ディン、シチアン; Shiqiang Ding; フアン、ジジョウ; Jizhou Huang; ウ、ディ; Di Wu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2022-06-07
Publication date: 2023-03-02
Also published as: KR20230026259A; CN113850083A; US20230067177A1; EP4137986A1

Abstract

【課題】放送音声をより感情的にすることができ、放送テキストに適切な放送スタイルを正確に決定するために放送スタイルを決定する方法、装置、機器及びコンピュータ記憶媒体を提供する。【解決手段】放送スタイルを決定する方法は、放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するステップと、少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するステップと、放送テキストとドメイン知識を使用して感情分析を行って、放送テキストの放送スタイルを決定するステップと、を含む。【選択図】図１

Description

本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能技術の分野の音声とディープラーニング技術に関する。

ますます多くのスマート端末は音声アシスタント機能が組み込まれている。音声アシスタントは音声の形式で内容の放送やユーザとの音声のインタラクションを行うことができるが、現在、音声アシスタントが放送する音声はほとんど修飾を加えず、比較的硬い言い方をする。ユーザのニーズが高まるにつれて、人々は音声アシスタントと対話して基本的な情報を満たすと同時に、音声アシスタントの放送音声がより感情的であることを望んでいる。

これに鑑みて、本開示は、放送テキストに適切な放送スタイルを正確に決定するために放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体を提供する。

本開示の第１の態様によれば、放送スタイルを決定する方法を提供し、
放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するステップと、
前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するステップと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップと、を含む。

本開示の第２の態様によれば、放送スタイルを決定する装置を提供し、
放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するエンティティ識別ユニットと、
前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する知識取得ユニットと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定する感情分析ユニットと、を含む。

本開示の第３の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。

本開示の第５の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。

本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の実施例により提供される主な方法のフローチャートである。本開示の実施例により提供される知識グラフ型ドメイン知識の例示的な図である。本開示の実施例により提供される放送スタイルを決定する装置の構造図である。本開示の実施例を実現するための電子機器のブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

現在、放送シナリオに基づいて放送スタイルを決定するなど、いくつかの既存の放送スタイルの決定方法が既に存在する。ナビゲーションシナリオでは強調トーンを使用し、観光地シナリオでは楽しいトーンなどを使用する。しかし、このような方式は適切な感情を正確に確定することができず、例えば、観光地の中で「抗日戦争記念館、徐州会戦は抗戦勃発後最も規模が大きく、兵力が最も多く、死傷者が最も深刻な会戦である」を放送すると、依然として、楽しいトーンで放送するのは明らかに適切ではない。これに鑑みて、本開示は、放送スタイルを決定するための新しいアイデアを提供し、以下、実施例と組み合わせて本開示により提供される方法を詳細に説明する。

図１は本開示の実施例により提供される主な方法のフローチャートである、当該方法の実行主体は放送スタイルを決定する装置であってもよく、当該装置は、ローカル端末のアプリケーションに位置することができるか、またはローカル端末のアプリケーション内のプラグインまたはソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などの機能ユニットに位置することもできるか、または、サーバ側に位置することもでき、本開示の実施例はこれについて特に限定しない。図１に示すように、当該方法は、以下のステップを含むことができる。
１０１では、放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得する。

１０２では、少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する。

１０３では、放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定する。

上記の技術解決策により、放送テキストに含まれる名前付きエンティティに対応するドメイン知識を感情分析に組み込みて、感情分析が放送テキストの重要なオブジェクトに含まれる内在情報を捕捉し、言葉の隠された真意を捕捉し、放送テキストに適切な放送スタイルを正確に取得し、当該放送スタイルは放送音声をより感情的にすることができる。

以下は実施例を組み合わせて上記の各ステップを詳細に説明する。まず、上記のステップ１０１、すなわち「放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得する」を詳細に説明する。

本開示に関する放送テキストとは、音声放送を行うテキストであり、すなわち放送テキストを使用して音声合成をした後に音声放送を行う必要がある。

当該放送テキストは、予め設定された内容であってもよく、例えば、起動語の内容、ウェルカム語の内容、特定のシナリオで固定放送される内容などであってもよい。例えば、ユーザ端末がある新しい地域に位置決めする時、「ＸＸ地域へようこそ」（その中、「ＸＸ」はある具体的な地域名を表す）を放送する。また、例えば、ナビゲーションシナリオにおけるナビゲーションテキスト「前方ＸＸＸで左折する」（その中、"ＸＸＸ"はある具体的な建物名を表す）などを放送する。

放送テキストは、第三者から取得されたテキスト内容であってもよく、例えば、第三者から取得されたニュース内容、文章内容などであってもよい。

放送テキストは、ユーザとインタラクション中に、ユーザが入力した音声に応答して生成されたテキストであってもよい。例えば、ユーザが音声「ＸＸＸＸはどこにありますか」を入力すると、ユーザが入力した当該音声に応答して放送テキスト「ＸＸＸＸは建設中路３号にあります」を生成する。

名前付きエンティティ（ｎａｍｅｄｅｎｔｉｔｙ）とは、例えば、人の名前、機関名、地名、日時、国名、製品名、及び他のすべての名前で識別されるエンティティを指す。名前付きエンティティ識別は、既に、現在比較的成熟した技術であり、辞書に基づいて識別することができ、規則に基づいて名前付きエンティティ識別を行うこともでき、機械学習アルゴリズムに基づいて識別することもでき、上記のいくつかの混合方法を使用して名前付きエンティティ識別を行うこともできる。具体的な名前付きエンティティの識別方式は、ここで詳細に説明しない。

好ましい実施方式として、放送テキストに対して名前付きエンティティ識別を行った後、予め設定された履歴期間内にユーザが放送テキストに含まれる名前付きエンティティのうちの少なくとも１つの名前付きエンティティを検索した場合、ユーザが検索した当該少なくとも１つの名前付きエンティティを後続のステップ１０２のドメイン知識の取得し、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも１つの名前付きエンティティをドメイン知識の取得のために用いられる。このような方式は、識別された名前付きエンティティがユーザのニーズをより満たし、ユーザがより関心する内容を反映することができる。

例えば、ユーザに対する放送テキストが「ＡはＢの南に位置し、環境がとても美しい」であり、その中、「Ａ」と「Ｂ」はそれぞれ２つの地名である。ユーザが１時間以内に「Ａ」を検索した場合、「Ａ」を本ステップで取得された名前付きエンティティとし、後続のステップ１０２でドメイン知識を取得するために使用することができる。ユーザが１時間以内に「Ａ」と「Ｂ」を検索しなかった場合、「Ａ」と「Ｂ」を本ステップで取得された名前付きエンティティとし、後続のステップ１０２でドメイン知識を取得するために使用する。

以下は実施例を組み合わせて上記のステップ１０２、すなわち「少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する」を詳細に説明する。

通常の場合に、放送テキストの感情決定は、文に粒度にに基づいている。すなわち、放送テキストに対して文分割を行う必要があり、各文について少なくとも１つの名前付きエンティティを決定し、名前付きエンティティに対応するドメイン知識を決定する。

本ステップで名前付きエンティティに対応するドメイン知識を取得する方式は、以下のいくつかを使用することができるが、これらに限定しない。
第１の方式：検索エンジンを使用して各名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位Ｍ個の検索結果をドメイン知識として取得し、前記Ｍは予め設定された正整数である。

例えば、放送テキストの１つの文に１つの地名しか含まれていないと仮定し、当該地名を検索した後、上位５個の検索結果タイトル、要約、図面、ビデオ又は本文などをドメイン知識とする。

放送テキストの１つの文に２つの地名が含まれていると仮定すると、当該地名をそれぞれ検索した後、２つの地名に対応する検索結果をいずれも上位５個を取得し、その１０個の検索結果のタイトル、要約、図面、ビデオ又は本文などをドメイン知識とする。

第２の方式：少なくとも１つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位Ｎ個の検索結果をドメイン知識として取得し、Ｎは予め設定された正整数である。

例えば、放送テキストの１つの文に２つの地名、例えば、地名Ａと地名Ｂが含まれておりと仮定すると、地名Ａと地名Ｂをスプライシングした後に「ＡＢ」を取得し、「ＡＢ」をｑｕｅｒｙとして使用して検索して、上位５個の検索結果タイトル、要約、図面、ビデオ又は本文などをドメイン知識として取得する。

第３の方式：予め構築された知識グラフを使用して上記の少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する。

本開示の実施例では、予め構築された知識グラフを取得することができ、知識グラフのノードは、名前付きエンティティを含み、同時に、知識グラフは各ノードの属性をさらに含む。本開示の実施例では、各名前付きエンティティに対応するタイムリーな情報を周期的に使用することができ、例えば、ニュース、ホット検索などを知識グラフ内の名前付きエンティティの属性とする。本開示では、知識グラフの具体的な構築方式に対して限定せず、知識グラフのみを使用して名前付きエンティティに対応する属性をドメイン知識として取得する。

以上の説明からも分かるように、本開示で使用されるドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも１つを含むことができる。

テキストは比較的理解しやすく、詳細に説明しない。

リッチメディアは、画像、ビデオ、オーディオなどを含むことができる。リッチメディアのドメイン知識から名前付きエンティティに含まれる感情情報を識別することもできる。例えば、１つの地域に関する画像の多くが蒼涼であると、悲傷の感情があることを示す。また、例えば、１つの地域に関する画像の多くが楽しい祝いシナリオであると、楽しみの感情があることを示す。

知識グラフは、図２に示すように、地点Ａの属性が人民が安心して生活することができない、生き地獄、大崩壊などの内容を含む場合、当該地点Ａには悲傷の感情があることを示す。

以下は実施例を組み合わせて上記のステップ１０３、すなわち「放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定する」を詳細に説明する。

放送テキストが１つの文のみを含む場合、当該文と当該文に対して決定されたドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定する。

放送テキストが１つ以上の文を含む場合、各文に対して以下のステップをそれぞれ実行し、当該ステップは、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定する。

つまり、１つの文に名前付きエンティティが含まれている場合、文の内容と当該名前付きエンティティのドメイン知識に基づいて当該文の放送スタイルを決定する。１つの文に名前付きエンティティが含まれていない場合、文の内容のみに基づいて文の放送スタイルを決定しするか、又はスムーズトーンなどのデフォルトの放送スタイルを使用する。

本開示の実施例では、文に含まれる名前付きエンティティのドメイン知識が決定された場合、文と文のドメイン知識を使用して感情分析を行う。すなわち文と文のドメイン知識を感情分析モデルに入力し、感情分析モデルによって出力された感情タイプを使用して放送テキストの放送スタイルを決定する。その中、感情分析モデルに使用される感情分析方式は、既存の任意の方式であってもよく、本開示はこれについて限定しない。例えば、以下の３つの方式を含むことができるが、これらに限定しない。
第１の方式：感情辞書に基づく感情分析。

手動又は自動の方式を使用して感情辞書を予め構築することができる。文とドメイン知識に対してセグメンテーション処理を行ってストップワードを除去した後、各単語をトラバーサルする。トラバーサルされた単語が感情辞書内の感情語である場合、当該単語に接頭辞程度語又は接頭辞否定語が存在するか否かを検索し、接頭辞程度語、接頭辞否定語、及び感情語の出現回数及び重みを使用して、当該感情語の感情スコアを計算する。最終に、各感情語の感情スコアに基づいて感情タイプを感情分析の結果として決定する。

第２の方式：機械学習に基づく感情分析。

文と文に含まれる名前付きエンティティのドメイン知識に対して特徴抽出を行い、次に、予めトレーニングされた機械学習モデルを使用して抽出された特徴に基づいて感情分類を行って、感情タイプを取得する。

その中、機械学習モデルは、ナイーブベイズ、最大エントロピー、サポートベクトルマシンなどの分類モデルを使用することができるが、これらに限定しない。

第３の方式：ディープラーニングに基づく感情分析。

文と文に含まれる名前付きエンティティのドメイン知識を予めトレーニングされたディープラーニングモデルに入力し、ディープラーニングモデルによって文とドメイン知識内の単語を単語ベクトルに変換し、次に、具体的な感情分類結果にマッピングし、感情タイプを取得する。

その中、ディープラーニングモデルは、ＦＮＮ（ＦａｃｔｏｒｉｚａｔｉｏｎＭａｃｈｉｎｅｓｕｐｐｏｒｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ、フィードフォワードニューラルネットワーク）、Ｗｏｒｄ２Ｖｅｃ技術、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、リカレントニューラルネットワーク）又はＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長期短期記憶ネットワーク）ネットワークを使用することができるが、これらに限定しない。

文に対応する感情分析結果を決定する時、それぞれ文、及び各ドメイン知識を感情分析モデルにそれぞれ入力して感情分析を行い、文に対応する感情と各ドメイン知識に対応する感情を取得し、次に、取得された感情タイプに対して投票ソート（すなわち取得された感情タイプの頻度に基づいてソートする）を行って、投票で最も高い感情タイプを最終的な当該文の感情分析結果として取得することができる。

文と各ドメイン知識を１つの全体として感情分析モデルに入力して感情分析を行い、感情分析モデルによって出力された感情タイプを最終的な当該文の感情分析結果とすることもできる。

感情タイプを決定した後、感情タイプに基づいて放送テキストの放送スタイルを決定することができる。その中、感情タイプは、喜び、興奮、幸福、好き、感動、激動、驚き、憤怒、怒り、暴怒、悲傷、もの寂しい、悲惨、悲哀、温暖、退屈、心配、憂慮、憂さ、失望、落胆、抑圧などを含むことができる。放送スタイルは、平穏、悲しい、強調、快活、荘重などを含むことができる。その中、各感情タイプを放送スタイルに予めに対応する。

感情分析モデルをトレーニングする時、各放送スタイルを感情分類結果として直接に使用することもできる。このように、感情分析モデルを使用して感情分析を行う時、放送スタイルを直接取得することもできる。

また、１つの文又は放送テキスト全体で名前付きエンティティが識別されてなかった場合、当該文には関連するドメイン知識が参照することができないことを意味し、この場合、文又は放送テキストのみに対して感情分析を行いことができ、文の語義のみに基づいて感情分析を行うことに相当し、取得された感情を使用して放送することができる。又は、名前付きエンティティが識別されてなかった文又は放送テキストに対して直接にスムーズトーンなどのデフォルトの放送スタイルを使用することができる。

上記の方式の処理後、以下の文の放送スタイルを決定することができ、

さらに、放送テキストの放送スタイルを取得した後、放送テキストと放送テキストの放送スタイル情報を使用して音声合成を行って、最終の放送テキストに対応する放送音声を取得する。当該放送音声は感情的である。

以下は１つの具体的な例を組み合わせて、上記の方法の実施例の実施方式に対してより鮮明な説明をする。放送テキスト：「前方はまもなくＸＸ抗日戦争記念館－南門付近に到着する。ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い！」であると仮定する。

まず、放送テキストに対して文分割を行って、２つの文：「前方はまもなくＸＸ抗日戦争記念館－南門付近に到着する」と「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」を取得する。その中、「ＸＸ」は１つの都市名を指す。

１番目の文に対して名前付きエンティティ識別を行った後、「ＸＸ抗日戦争記念館」を取得する。検索エンジンを使用して当該名前付きエンティティに対応する前の５個の検索結果タイトルをドメイン知識として取得する。これらの検索結果タイトルは、ほとんどの抗日戦争に関連する歴史事件を反映するため、当該文とドメイン知識を感情分析モデルに入力した後、対応する放送スタイルが荘重であるであることを取得する。

２番目の文「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」に対して名前付きエンティティ識別を行った後、名前付きエンティティを取得できない。当該文のみを感情分析モデルに入力し、対応する放送スタイルが強調であることを取得する。

そうすると、音声合成をした後に、荘重なトーンで「前方はまもなくＸＸ抗日戦争記念館－南門付近に到着する」を放送し、強調なトーンで「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」を放送する。

本開示により提供される上記の方法は、以下のアプリケーションシナリオに適用することができるが、これらに限定されず、
地図類アプリケーションにおける音声放送シナリオは、例えば、ナビゲーション音声放送、観光地情報放送などである。

端末機器又は任意のアプリケーションに搭載された音声アシスタントの音声放送シナリオである。

マートスピーカーなどのスマート端末機器とユーザの音声インタラクションシナリオである。

例えば、ニュース系アプリケーション、読書系アプリケーション、ラジオ系アプリケーションなどの放送シナリオである。例えば、ニュースを音声に変換して放送し、書籍の内容を音声に変換して放送し、ラジオ原稿を音声に自動に変換して放送する。

以上は、本開示により提供される方法を詳細に説明し、以下は実施例を組み合わせて本開示により提供される装置を詳細に説明する。

図３は本開示の実施例により提供される放送スタイルを決定する装置の構造図である。図３に示すように、当該装置３００は、エンティティ識別ユニット３０１、知識取得ユニット３０２、及び感情分析ユニット３０３を含むことができ、文分割ユニット３０４をさらに含むこともできる。各構成ユニットの主な機能は以下のようであり、
エンティティ識別ユニット３０１は、放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するために用いられる。

知識取得ユニット３０２は、少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するために用いられる。

感情分析ユニット３０３は、放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定するために用いられる。

好ましい実現方式として、エンティティ識別ユニット３０１は、放送テキストに対して名前付きエンティティ識別を行い、予め設定された履歴期間内にユーザが放送テキストに含まれる名前付きエンティティのうちの少なくとも１つの名前付きエンティティを検索した場合、ユーザが検索した少なくとも１つの名前付きエンティティはドメイン知識の取得のために用いられ、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも１つの名前付きエンティティをドメイン知識の取得のために用いられることができる。

その中、知識取得ユニット３０２は、検索エンジンを使用して少なくとも１つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位Ｍ個の検索結果をドメイン知識としてそれぞれ取得し、Ｍは予め設定された正整数であり、又は、
少なくとも１つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位Ｎ個の検索結果をドメイン知識として取得し、Ｎは予め設定された正整数であり、又は、
予め構築された知識グラフを使用して少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するために用いられることができる。

上記のドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも１つを含む。

実現方式として、文分割ユニット３０４は、放送テキストに対して文分割を行うために用いられる。その中、上記の文分割ユニット３０４は、エンティティ識別ユニット３０１の前に実行することができ、図に示すのはこの場合である。他の段階で実行することもでき、感情分析ユニット３０３の前に実行すればよい。

これに応じて、感情分析ユニット３０３は、具体的には、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定するために用いられる。

さらに、感情分析ユニット３０３は、さらに、名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定するために用いられることができる。

実現可能な方式として、感情分析ユニット３０３は、具体的には、放送テキストとドメイン知識を感情分析モデルに入力し、感情分析モデルによって出力された感情タイプを使用して放送テキストの放送スタイルを決定するために用いられる。

さらに、放送テキストの放送スタイルを取得した後、音声合成ユニット（図示せず）から放送テキストと放送テキストの放送スタイル情報を使用して音声合成を行って、最終の放送テキストに対応する感情がある放送音声を取得する。

本明細書の各実施例は、すべて漸進的な方式を使用して説明し、各実施例間の同一および類似の部分は、互いに参照すればよく、各実施例は、すべて他の実施例との違いについて重点的に説明する。特に、装置の実施例は、方法の実施例に基本的に類似するため、説明は比較的に簡単であり、関連するところは、方法の実施例の部分の説明を参照すればよい。

本開示の技術案において、関するユーザ個人情報の取得、記憶、応用などは、すべて関連する法律および規定を満たし、公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図４に示すように、本開示の実施例に係る放送スタイルを決定する方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図４に示すように、機器４００は計算ユニット４０１を含み、計算ユニット４０１は、読み取り専用メモリ（ＲＯＭ）４０２に記憶されているコンピュータプログラムまたは記憶ユニット４０８からランダムアクセスメモリ（ＲＡＭ）４０３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ４０３には、機器４００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット４０１、ＲＯＭ４０２、およびＲＡＭ４０３は、バス４０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース４０５もバス４０４に接続される。

機器４００内の複数のコンポーネントは、Ｉ／Ｏインターフェース４０５に接続されており、キーボード、マウスなどの入力ユニット４０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット４０７と、ディスク、光ディスクなどの記憶ユニット４０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット４０９と、を含む。通信ユニット４０９は、機器４００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット４０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット４０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット４０１は、放送スタイルを決定する方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、放送スタイルを決定する方法は、記憶ユニット４０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。

いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ４０２および／または通信ユニット４０９を介して機器４００にローディングおよび／またはインストールされる。コンピュータプログラムがＲＡＭ４０３にローディングされて計算ユニット４０１によって実行される場合、上記の放送スタイルを決定する方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット４０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介して放送スタイルを決定する方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ローディングプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または「ＶＰＳ」と略称する）に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するステップと、
前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するステップと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップと、を含む、
放送スタイルを決定する方法。
放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するステップは、
放送テキストに対して名前付きエンティティ識別を行うステップと、
予め設定された履歴期間内にユーザが前記放送テキストに含まれる名前付きエンティティのうちの少なくとも１つの名前付きエンティティを検索した場合、ユーザが検索した前記少なくとも１つの名前付きエンティティをドメイン知識の取得に用い、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも１つの名前付きエンティティをドメイン知識の取得に用いるステップと、を含む、
請求項１に記載の放送スタイルを決定する方法。
前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するステップは、
検索エンジンを使用して前記少なくとも１つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位Ｍ個の検索結果をドメイン知識としてそれぞれ取得し、前記Ｍは予め設定された正整数であり、又は、
前記少なくとも１つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位Ｎ個の検索結果をドメイン知識として取得し、前記Ｎは予め設定された正整数であり、又は、
予め構築された知識グラフを使用して前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得するステップと、を含む、
請求項１に記載の放送スタイルを決定する方法。
前記ドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも１つを含む、
請求項１又は３に記載の放送スタイルを決定する方法。
前記放送テキストに対して文分割を行うステップをさらに含み、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップは、
各文に対して、それぞれ、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行って当該文の放送スタイルを決定するステップを含む、
請求項１に記載の放送スタイルを決定する方法。
名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定するステップをさらに含む、
請求項５に記載の放送スタイルを決定する方法。
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップは、
前記放送テキストと前記ドメイン知識を感情分析モデルに入力し、前記感情分析モデルによって出力された感情タイプを使用して前記放送テキストの放送スタイルを決定するステップを含む、
請求項１に記載の放送スタイルを決定する方法。
放送テキストに対して名前付きエンティティ識別を行い、少なくとも１つの名前付きエンティティを取得するエンティティ識別ユニットと、
前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する知識取得ユニットと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定する感情分析ユニットと、を含む、
放送スタイルを決定する装置。
前記エンティティ識別ユニットは、放送テキストに対して名前付きエンティティ識別を行い、予め設定された履歴期間内にユーザが前記放送テキストに含まれる名前付きエンティティのうちの少なくとも１つの名前付きエンティティを検索した場合、ユーザが検索した前記少なくとも１つの名前付きエンティティをドメイン知識の取得に用い、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも１つの名前付きエンティティをドメイン知識の取得に用いる、
請求項８に記載の放送スタイルを決定する装置。
前記知識取得ユニットは、
検索エンジンを使用して前記少なくとも１つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位Ｍ個の検索結果をドメイン知識としてそれぞれ取得し、前記Ｍは予め設定された正整数であり、又は、
前記少なくとも１つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位Ｎ個の検索結果をドメイン知識として取得し、前記Ｎは予め設定された正整数であり、又は、
予め構築された知識グラフを使用して前記少なくとも１つの名前付きエンティティに対応するドメイン知識を取得する、
請求項８に記載の放送スタイルを決定する装置。
前記ドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも１つを含む、
請求項８又は１０に記載の放送スタイルを決定する装置。
前記放送テキストに対して文分割を行う文分割ユニットをさらに含み、
前記感情分析ユニットは、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行って、当該文の放送スタイルを決定する、
請求項８に記載の放送スタイルを決定する装置。
前記感情分析ユニットは、名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定する、
請求項１２に記載の放送スタイルを決定する装置。
前記感情分析ユニットは、前記放送テキストと前記ドメイン知識を感情分析モデルに入力し、前記感情分析モデルによって出力された感情タイプを使用して前記放送テキストの放送スタイルを決定する、
請求項８に記載の放送スタイルを決定する装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～３、及び５～７のいずれか一項に記載の放送スタイルを決定する方法を実行する、
電子機器。
コンピュータに請求項１～３、及び５～７のいずれか一項に記載の放送スタイルを決定する方法を実行させるコンピュータ命令が記憶されている、非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１～３、及び５～７のいずれか一項に記載の放送スタイルを決定する方法を実現するコンピュータプログラム。