JP5925143B2 - 発話候補作成装置とその方法とプログラム - Google Patents

発話候補作成装置とその方法とプログラム Download PDF

Info

Publication number
JP5925143B2
JP5925143B2 JP2013035865A JP2013035865A JP5925143B2 JP 5925143 B2 JP5925143 B2 JP 5925143B2 JP 2013035865 A JP2013035865 A JP 2013035865A JP 2013035865 A JP2013035865 A JP 2013035865A JP 5925143 B2 JP5925143 B2 JP 5925143B2
Authority
JP
Japan
Prior art keywords
utterance
information
comment
type
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013035865A
Other languages
English (en)
Other versions
JP2014164582A (ja
Inventor
弘晃 杉山
弘晃 杉山
豊美 目黒
豊美 目黒
南 泰浩
泰浩 南
東中 竜一郎
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013035865A priority Critical patent/JP5925143B2/ja
Publication of JP2014164582A publication Critical patent/JP2014164582A/ja
Application granted granted Critical
Publication of JP5925143B2 publication Critical patent/JP5925143B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、ユーザと自然言語を用いて対話するシステム(以下、対話システム)において、マイクロブログを利用して対話システムの発話候補を作成する発話候補作成装置とその方法とプログラムに関する。
対話システムは、自然言語を用いて対話するために、予め1つないし複数の発話候補(発話の集合)を作成しておき、対話の状況に応じて予め用意した発話候補の中から適当な発話を出力するものである。発話候補を作成する方法には、人が手作業で発話候補を作成する方法(非特許文献1,2)。キーワードを予め指定するか若しくはユーザの発話からキーワードを抽出し、手作業若しくは所定のルールに基づいてキーワードをテンプレートに埋め込んで発話候補とする方法(非特許文献3)。などの方法が知られている。
これらの方法で発話候補を作成する場合、手作業が必要となるため、発話候補の数が少なくなる。発話候補の数が少ないと発話のバリエーションが少なくなるため、対話が単調になるという問題が生ずる。更に、予め発話候補を作成しておくという形態上、話題は普遍的な、何時でも受け入れ易い当たり障りのないものになり勝ちで、単調さを増加させる原因になっている。
この問題を改善する目的で、人同士の対話(音声・非音声を問わない)を収録し、その対話に現れた発話を発話候補とする方法が考えられている(非特許文献4)。また、ニュースなどの公共性の高い情報を頻繁に発信する情報発信型ユーザの発言を言語処理に利用した例として非特許文献5が知られている。また、新聞記事の見出しは従来要約の対象として広く利用されており、対話システムへの応用も一部進められている(非特許文献6)。非特許文献5と6で開示された技術は、情報発信型ユーザの発言自体を利用するものではなく、対話システムへの応用例でもない。
稲葉通将、平井尚樹、鳥海不二夫、石井健一郎「非タスク指向型対話エージェントのための統計的応答方法」電子情報通信学会論文誌 D,Vol.J95-D,No.6,pp.1390-1400,2012. 浅井亮太、堂坂浩二、東中竜一郎、南泰浩、前田栄作「多人数対話における対話エージェントのコミュニケーション活性効果」言語処理学会第15回年次大会,2009. 翠輝久、河原達也、正司哲朗、美濃導彦「質問応答・情報推薦機能を備えた音声による情報案内システム」情報処理学会論文誌,Vol.48,No.12,pp.3602-3611, 2007. 別所史浩、原田達也、國吉康夫「リアルタイムクラウドソーシングとTwitter大規模コーパスを利用した対話システム」,SIG-SLP, 2012. Liu, X. and Li, K. and Han, B. and Zhou, M. and Jiang, L. and Xiong, Z. and Huang, C. Semantic role labeling for news tweets. ACL, pp.698-706, 2010. 蓬菜博哉、灘本明代、田中克己「理解しやすさとユーモアを考慮したWebコンテンツの対話番組変換」DBSJ Letters, Vol.2, No. 2, 2003.
しかし、人同士の対話を用いて発話候補を作成する場合、人同士の対話が持つ文脈依存性が問題となる。対話を行う人同士は通常知り合い関係にあり、発話に表れない文脈(収録対話以外でのやりとり)の上で対話が行われている。人同士の対話ではお互いに既知の情報は省略される傾向にあるため、収録された対話には、収録された当事者でのみ成立し、当事者以外にとっては必要な情報が欠けている発話候補が大量に含まれることになる。このような発話候補から対話システムの発話を選択すると、不特定多数のユーザにとって理解できない発話が出力されてしまうという問題が発生する。
本発明は、この課題に鑑みてなされたものであり、TwitterやFacebookに代表されるマイクロブログの発話と、それに対するコメントを利用することで、文脈依存性が少なく且つバリエーションを損なわない発話候補を作成する発話候補作成装置と、その方法とプログラムを提供することを目的とする。
本発明の発話候補作成装置は、発言解析部と、情報発信型発言情報解析部と、コメント型発言情報解析部と、発話候補作成部と、を具備する。発言解析部は、情報発信元の発信情報と当該発信情報に対するコメントの情報を含むマイクロブログであるユーザ発言を入力として、当該ユーザ発言を情報発信型発言とコメント型発言の2種類に分類して出力すると共に、当該2種類の発言を対応付けた対応関係情報を対応関係記憶部に記録する。情報発信型発言情報解析部は、情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、情報発信型発言の意味を解析した後に、当該情報発信型発言を発話に適した発話形式発信情報に変換し、対応関係情報を参照して発話形式発信情報に識別子を付与して出力する。コメント型発言情報解析部は、コメント型発言を入力として、コメント型発言を形態素解析してコメントキーワード候補を抽出すると共に対応関係を参照して当該コメントキーワード候補に識別子を付与し、上記コメント型発言をそのまま出力する、又は、上記コメント型発言を発話に適した発話形式コメントに変換して出力する。発話候補作成部は、発話形式発信情報と発話形式コメントを入力として、上記識別子が一致する上記発話形式発信情報を前文、上記識別子が一致する発話形式コメントを後文とする発話候補を作成して出力する
本発明の発話候補作成装置によれば、マイクロブログの発言から対話システムで用いる発話候補を作成できるので、従来の方法に対してバリエーションに富み、文脈依存性の少ない発話候補を作成することが可能になる。特に、日々追加されるマイクロブログを利用することで、最新の話題に適合した発話候補を作成できる効果を奏する。
本発明の発話候補作成装置100の機能構成例を示す図。 発話候補作成装置100の動作フローを示す図。 マイクロブログの発言例を示す図。 発言解析部110の機能構成例を示す図。 発言解析部110の動作フローを示す図。 情報発信型発言情報解析部130の機能構成例を示す図。 発言情報解析手段131の動作フローを示す図。 コメント型発言情報解析部140の機能構成例を示す図。 コメント型発言情報解析部140の動作フローを示す図。 本発明の発話候補作成装置200の機能構成例を示す図。 本発明の発話候補作成装置300の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の発話候補作成装置100の機能構成例を示す。その動作フローを図2に示す。発話候補作成装置100は、発言解析部110と、対応関係記憶部120と、情報発信型発言情報解析部130と、コメント型発言情報解析部140と、発話候補作成部150と、制御部160と、を具備する。発話候補作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
発言解析部110は、情報発信元の発信情報と当該発信情報に対するコメントの情報を含むマイクロブログであるユーザ発言を入力として、当該ユーザ発言を情報発信型発言とコメント型発言の2種類に分類して出力すると共に、当該2種類の発言を対応付けた対応関係情報を対応関係記憶部に記録する(ステップS110)。ユーザ発言は、TwitterやFacebookに代表されるマイクロブログのことである。マイクロブログとは、通常のブログよりも短い文章(140字以内など)で投稿される簡易ブログであり、通常のブログよりもユーザ間のコミュニケーションに力点が置かれたソーシャルネットワーキングサービスである。
図3に、マイクロブログの発言例を示す。図3において、1行目はマイクロブログの構造の一例を示す。「RT」が引用を表すマーカであり、コメント発言と情報発信型ユーザの発信情報とを対応付けている。2行目の「キタコレ!絶対買う!」は、コメント発言の例である。3行目の「RT」は引用を示す文字列(マーカ)であり、文字列には「QT」、「→」等の複数の種類が存在する。3〜6行目は、情報発信型ユーザの発言情報の例である。「@official_news」は情報発信型ユーザのユーザ名であるが、ユーザ名とURL(Umiform Resource Locator)は無い場合が有り得る。
発言解析部110が行う情報発信型発言とコメント型発言の2種類に分類する処理は、全てのユーザ発言についての処理が終了するまで繰り返される(ステップS1601のNo)。この繰り返し動作の制御は、制御部160が行う。情報発信型発言とコメント型発言の2種類に分類する処理の具体的な説明は後述する。
情報発信型発言情報解析部130は、情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該発話情報キーワード候補の意味を解析した後に、当該発話情報キーワード候補を発話に適した発話形式発信情報に変換する(ステップS130)。ここで意味とは、「未来」、「過去」、「表層格」、「地名」などのことである、詳しくは後述する。ステップS130の動作は、全ての発話情報キーワード候補が終了するまで繰り返される(ステップS1602のNo)。
コメント型発言情報解析部140は、コメント型発言を入力として、コメント型発言を形態素解析してコメントキーワード候補を抽出し、当該コメント型発言をそのまま発話形式コメントとして出力する、又は、コメント型発言を発話に適した発話形式コメントに変換して出力する(ステップS140)。この発話形式コメントを出力する処理は、全てのコメント型発言についての処理が終わるまで制御部160によって制御される(ステップS1603のNo)。
発話候補作成部150は、発話形式発信情報と発話形式コメントを入力として、識別子が一致する発話形式発信情報を前文、識別子が一致する発話形式コメントを後文とする発話候補を作成して出力する(ステップS150)。発話形式コメントの付加は、発話形式発信情報と発話形式コメントに対応関係がある場合に行われる。
以上のように動作する発話候補作成装置100によれば、マイクロブログから発話候補文を作成することができる。この発話候補文は、バリエーションに富み、文脈依存性の少ない発話候補を作成することができる。以降では、各部のより具体的な機能構成例を示して更に詳しく発話候補作成装置100の動作を説明する。
なお、発言解析部110に入力されるユーザ発言は、一度、発話記憶部180に記憶されたものを用いても良い。その場合、発話記憶部180には、発言記憶処理部170においてユーザ発言から、その発言内容とその発言を投稿したユーザの情報が抽出されて記録される。ユーザの情報(ユーザ名)は、マイクロブログサービス提供側から得られる場合はその情報を使用し、得られない場合は発言記憶処理部170が適当にユニークなIDを生成して付与する。
〔発言解析部〕
図4に、発言解析部110の機能構成例を示す。その動作フローを図5に示す。発言解析部110は、ユーザ分類手段111と、情報発信型ユーザリスト112と、発言対応付け手段113と、を備える。
ユーザ分類手段111は、ユーザ発言(マイクロブログ)を入力として、当該ユーザ発言に含まれる引用を表わす文字列の有無を判定し、引用ありの場合は当該文字列より前の前文をコメントに分類し、当該前文に対応する後文に情報発信型ユーザリストに登録された情報発信型ユーザ名を含む場合は当該後文を発信情報として分類して出力する、又は、上記引用を表わす文字列が上記ユーザ発言内に無い場合は当該ユーザ発言をそのまま発言対応付け手段113に出力する。又は、後文に情報発信型ユーザ名を含まない場合は当該ユーザ発言を棄却する(ステップS111)。
ユーザ分類手段111は、まず、ユーザ発言内の引用を表わす文字列を検索する(ステップS1110)。引用を表わす文字列は例えば「RT」であり、「RT」が有った場合、その「RT」より前のユーザ発言をコメントに分類する(ステップS1111)。引用を表わす文字列が無い場合、ユーザ分類手段111はユーザ発言をそのまま発言対応付け手段113に出力する(ステップS1110のNo)。
そして「RT」が有った場合、「RT」より後ろのユーザ発言内に情報発信型ユーザ名が含まれているか否かを、情報発信型ユーザリスト112を参照して検索する(ステップS1112)。情報発信型ユーザ名が含まれていれば、その後文を発信情報に分類する(ステップS1113)。情報発信型ユーザ名が含まれない場合は、前文を含めたユーザ発言全体を棄却する(ステップS1112の無し)。
情報発信型ユーザリスト112は、例えば、新聞やテレビ局、政府関係機関の公式アカウントを収集してまとめたものであり、図1に例示した情報発信型ユーザ名が大量に記録されたものである。公式アカウントは、図1に示した例えば「@official_news」であり、情報発信型ユーザのユーザ名である。
発言対応付け手段113は、分類されたコメントと発信情報、又は、ユーザ発言を入力として、発信情報(後文)にURLが含まれるか否かを検索し、URLが含まれる場合(ステップS1130の有り)はそのURLでコメントと発信情報を対応付ける、若しくはユーザ発言をコメントとして発信情報に対応付ける(ステップS1131)。対応付けは、例えば、コメントにURL、発信情報にURLIfといったURLで識別が可能な識別子を付与することで行う。識別子が付与されたコメントと発信情報は、対応関係記憶部120に記録されると共に、コメントはコメント型発言、発信情報は情報発信型発言として出力される。
発言対応付け手段113にユーザ発言が入力された場合は、そのユーザ発言内にURLが含まれるか否かを検索し、URLが含まれる場合は当該ユーザ発言をそのURL名に対応するコメントとして分類する(ステップS1133)。そのユーザ発言は、例えばURLの識別子が付与されてURLに対応付けられる。URLが含まれない場合は(ステップS1132の無し)、そのユーザ発言を棄却する。そして、全てのユーザ発言についての処理が終了するまで、ユーザ発言を更新(ステップS1116)しながら上記した動作を繰り返す(ステップS1601のNo)。
〔情報発信型発言情報解析部〕
図6に、情報発信型発言情報解析部130の機能構成例を示す。その動作フローを図7に示す。情報発信型発言情報解析部130は、発言情報解析手段131と、発言情報変換手段133と、を備える。
発言情報解析手段131は、発言解析部110が出力する情報発信型発言を入力として当該情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該発話情報キーワード候補に表層格のタグを付与すると共に、テンプレートに合致する発話情報キーワード候補にその意味を表わすタグを付与する(ステップS131)。
発言情報解析手段131は、まず、入力された情報発信型発言を形態素解析する(ステップS1310)。そして、情報発信型発言が2文から構成されるか否かを判定する(ステップS1311)。情報発信型発言が2文からなり、例えば「山田太郎のライブツアーに10万人参加。東京お台場」であったと仮定する。情報発信型発言の一方の文が地名のみであることをその形態素情報から判定した場合、その一方の文に地名タグ「地名・$geo_word」を付与する。地名タグが付与された文は「地名・東京お台場」となる。
他方の文「山田太郎のライブツアーに10万人参加。」は、1文の情報発信型発言として処理される(ステップS1315のYes)。ここで、情報発信型発言が図1に例示した「山田太郎、4月にライブCDをリリース」だとすると、発話情報解析手段131は1文内から<名詞列$N>+<読点>を検索(ステップS1316)して、表層格のタグ「ガ格・山田太郎が」が付与される。図7では、表層格の「ガ格」のみを付与する例であるが、他の表層格である「ヲ格」、「ニ格」、「カラ格」他を付与するようにしても良いし、複数の表層格を付与するようにしても良い。
1文が「山田太郎のライブツアーに10万人参加。」の場合は、この例では表層格の抽出は行われない。表層格の付与の後、発言情報解析手段131は、その1文内に時間情報が含まれるか否かを判定し、時間情報を含まないか(ステップS1318)、未来の時間情報を含むか(ステップS1321)、を判定する。そして、文末の動作名詞を抽出する(ステップS1319,S1322)。この例では「参加」を発話情報キーワード候補として抽出する。この時刻情報を含むか否かや、未来の時間情報を含むか否か、が上記したテンプレートに相当する。
時間情報を含まない場合、動作名詞「参加」に過去タグを付与する「過去・参加」、未来の日時が含まれる場合は動作名詞「参加」に未来タグを付与する「未来・参加」。動作名詞に対する未来タグの付与は、文から未来の事柄を表わすことが多い表現の<動作名詞>+<へ>を抽出して、その動作名詞に未来タグ「未来・$N」を付与するようにしても良い。
発言情報変換手段133は、タグが付与された発話情報キーワード候補を含む情報発信型発言を、当該タグに対応した発話に適した発話形式発信情報に変換して出力する。例えば、過去タグが付与された発話情報キーワード候補「過去・参加」を含む情報発信型発言「山田太郎のライブツアーに10万人参加。」は、「山田太郎のライブツアーに10万人参加した。」の発話形式発信情報に変換される。未来タグが付与された発話情報キーワード候補「未来・参加」を含む発話形式発信情報は「山田太郎のライブツアーに10万人参加するんだって」に変換される。
このように文末を変換する方法の他、例えば文頭に「こんなことをしっているか?」を付与して問い掛け調に変換する方法も考えられる。このように変換する場合は、「こんなことをしっているか?」に続く文は、ある一定の事柄をまとめた一文である必要がある。その場合は、一定の事柄をまとめた一文を抽出できるように、発言情報解析手段131のテンプレートを構成する。テンプレートの構成の仕方で、情報発信型発言の要約文を作成することも可能である。
〔コメント型発言情報解析部〕
図8に、コメント型発言情報解析部140の機能構成例を示す。その動作フローを図9に示す。コメント型発言情報解析部140は、コメント解析手段141とコメント変換手段142と、を備える。コメント型発言情報解析部140は、発言解析部110が出力するコメント型発言を入力として、所定の長さより短いコメント型発言を形態素解析してコメントキーワード候補を抽出する(ステップS131)。
コメント解析手段141は、コメント型発言の長さを判定する(ステップS1410)。その長さの判定は、コメント型発言が予め定められた長さよりも長い場合、余分な情報が混入していることが多いので、そのコメント型発言を処理対象外とする目的で行う。長さの判定は、例えばキャラクタ数をカウントして行う。キャラクタ数が例えば20以上の場合、そのコメント型発言は棄却される(ステップS1410のNo)。
コメント型発言の長さが所定の長さ未満の場合、そのコメント型発言は形態素解析され、コメントキーワード候補が抽出される(ステップS1411)。コメントキーワード候補はコメント変換手段142に出力される。
コメント変換手段142は、コメントキーワード候補を発話形式コメントとして出力する(ステップS1420)。コメント型発言は、ほとんどの場合、口語に適した表現になっているため、発音不可能な形態素(記号)を削除する処理に留め、そのまま発話形式コメントとして出力する。
しかし、コメント型発言をそのまま改変なしに利用すると著作権の問題が生じる場合がある。その場合、問題が生じないように、例えば「買う」を「買うつもりだよ」などの表現に変換して出力する(ステップS1420′)。この改変の有無の処理方法については、予めどちらにするか設定しておく。又は、ユーザの情報(ユーザ名)に基づいて権利を主張する可能性のあるユーザのコメント型発言の場合にのみ改変するようにしても良い。
コメント解析手段141とコメント変換手段142の動作は、全てのコメント型発言が終了するまで、コメント型発言を更新(ステップS1411)しながら繰り返される(ステップS1603のNo)。
〔発話候補作成部〕
発話候補作成部150は、情報発信型発言情報解析部130が出力する発話形式発信情報と、コメント型発言情報解析部140が出力する発話形式コメントとを入力として、識別子が一致する上記発話形式発信情報を前文、上記識別子が一致する上記発話形式コメントを後文とする発話候補を作成して出力する。
図1に示したマイクロブログを例にすると、情報発信型発言は「山田太郎、4月にライブCDをリリース」、コメント型発言は「キタコレ“絶対買う!」である。情報発信型発言の「山田太郎、4月にライブCDをリリース(URLIf)」は、情報発信型発言情報解析部130によって「山田太郎が4月にライブCDをリリースするんだって(URLIf)」の発話形式発信情報に変換される。コメント型発言の「キタコレ“絶対買う!(URL)」は、例えば改変されずにそのまま発話形式コメントとして発話候補作成部150に入力される。
発話候補作成部150は、識別子がURLで一致する発話形式発信情報「山田太郎が4月にライブCDをリリースするんだって」を前文、発話形式コメント「キタコレ“絶対買う!」を後文とする発話候補「山田太郎が4月にライブCDをリリースするんだって。キタコレ“絶対買う!」を作成して出力する。
以上説明した発話候補作成装置100によれば、マイクロブログから、最新の話題にマッチした対話システムに利用可能な発話候補を作成することができる。なお、実施例1では、1個ずつの発話形式発信情報と発話形式コメントから、1個の発話候補を作成する例を説明したが、1個の発話形式発信情報に対して複数の発話形式コメントを用いて1個の発話候補を作成する構成も考えられる。そのように構成したこの発明の発話候補作成装置200を次に説明する。
図10に、この発明の発話候補作成装置200の機能構成例を示す。発話候補作成装置200は、発言解析部110と、対応関係記憶部120と、発言情報解析部210と、コメント解析部220と、発話情報キーワード候補記憶部230と、コメントキーワード候補記憶部240と、発言情報変換部250と、重複コメント抽出部260と、コメント変換部270と、発話候補作成部150と、制御部280と、を具備する。参照符号から明らかなように、発言解析部110と対応関係記憶部120と発話候補作成部150は、発話候補作成装置100と同じものである。制御部280は、発話候補作成装置200の各部の時系列的な処理関係を制御するものであり、発話候補作成装置100の制御部160に対応するものである。
発言情報解析部210は、発言解析部110が出力する識別子付きの情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該情報発信型発言の意味を解析した後に、上記発話情報キーワード候補に表層格のタグを付与すると共に、テンプレートに合致する発話情報キーワード候補にその意味を表わすタグを付与する。そして、タグを付与した発話情報キーワード候補を、発話情報キーワード候補記憶部230に記録する。タグが付与された発話情報キーワード候補は、発言情報変換部250において付与されたタグに対応した発話形式発信情報に変換される。
コメント解析部220は、識別子付きのコメント型発言を入力として、所定の長さより短いコメント型発言を形態素解析してコメントキーワード候補を抽出して、当該コメントキーワード候補とコメント型発言をコメントキーワード候補記憶部240に記録する。
重複コメント抽出部260は、発話情報キーワード候補の識別子を参照して、識別子で対応する複数のコメントキーワード候補から発言情報に対応させるコメントキーワードを決定する。コメントキーワードの決定方法は、TF−IDF値などの単語重みを表わす値でフィルタリングして行う。
TF−IDF値は、文書中の単語に関する重みの一種であり、主に情報検索や文書要約などの分野で利用される周知の値である。TF−IDF値を用いることで、どの程度文書に特有の単語か、という情報を得ることができる。つまり、コメントキーワード候補中のTF−IDF値が高い単語は、対応する発言情報に含まれる特有の情報を表わすものと期待できる。
TF−IDF値の計算は、ある発言情報と、その発言情報と識別子で対応するコメント型発言群とを1つの文書として扱って求める。この例(図10)では、例えば識別子で対応するコメントキーワード候補の数が最も多いものを、コメントキーワードに決定する。
コメント変換部270は、コメントキーワードを含むコメント型発言をそのまま発話形式コメントとして出力する、又は、そのコメント型発言を発話に適した発話形式コメントに変換して出力する。
発話候補作成部150は、発話形式発信情報と発話形式コメントを入力として、識別子が一致する発話形式発信情報を前文、識別子が一致する上記発話形式コメントを後文とする発話候補を作成して出力する。
この発話候補作成装置200が出力する発話候補は、複数のコメントキーワード候補から選ばれた特徴的なキーワード候補から作成されるので、特徴的で且つ安定性のある発話候補とすることができる効果を奏する。
この発明のマイクロブログから対話システムで用いる発話候補を作成する考えに基づき、所望のキーワードに合致した発話候補を得ることができるように構成した発話候補作成装置300も考えられる。発話候補作成装置300の機能構成例を図11に示してその動作を説明する。
発話候補作成装置300は、発話候補記憶部310と、発話候補文検索出力部320と、を具備する。発話候補記憶部310は、この発明の発話候補作成装置100,200で作成した発話候補を大量に記録したものである。
発話候補文検索出力部320は、外部から入力される発話候補キーワードを入力として、発話候補記憶部310に記録された発話候補から、発話候補キーワードを含む発話を検索して出力する。発話候補キーワードの単語数を複数にすることで、得たい発話候補を確実に取得することができる。このように発話候補作成装置300によれば、対話システムの目的に適合した適切な発話候補を、効率よく取得することができる。
以上説明したように、本願発明の発話候補作成装置は、マイクロブログを情報発信型発言とコメント型発言の2種類に分類し、分類した情報発信型発言をその意味に対応させて発話に適した発話形式発信情報に変換し、その変換した発話形式発信情報に対応するコメント型発言を付加して発話情報とすることを特徴とするものである。これらの技術的特徴を備えた発話候補作成装置は、人が記述したマイクロブログの文章から、最新の話題にマッチした発話候補を作成することができ、従来の方法で作成した発話候補に比べてバリエーションに富んだ発話候補を作成することを可能となり、単調さを減少させる効果が期待できる。
なお、上記した発言情報解析手段131は、2文から構成される情報発信型発言までを解析する例で説明を行ったが、あくまで一例である。2文以上で構成される情報発信型発言についても、上記した技術思想で解析することは容易である。また、情報発信型発言情報解析部130内に設けられるテンプレートは、過去タグ、未来タグ、表層格のタグ、地名タグ、などの簡単な例のみを例示したが、テンプレートの構成によっては、情報発信型発言を、例えば要約することも可能である。このように、この発明の情報発信型発言情報解析部130の機能は、上記したタグを付与するものに限定されるものではない。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 情報発信元の発信情報と当該発信情報に対するコメントを含むマイクロブログであるユーザ発言を入力として、当該ユーザ発言に含まれる引用を表わす文字列の有無を判定し、引用ありの場合は当該文字列より前の前文をコメントに分類し、当該前文に対する後文に情報発信型ユーザリストに登録された情報発信型ユーザ名を含む場合は当該後文を発信情報として分類し、分類した上記コメントと発信情報を出力し、分類された上記コメントと発信情報を入力として、上記発信情報にURLが含まれるか否かを検索し、URLが含まれる場合はそのURLで識別が可能な識別子で上記コメントと発信情報とを対応付け、上記コメントをコメント型発言として、上記発信情報を情報発信型発言として出力すると共に、上記コメントと発信情報とを上記識別子で対応付けた対応関係情報を対応関係記憶部に記録する発言解析部と、
    上記情報発信型発言を入力として当該情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該情報発信型発言の意味を解析した後に、上記情報発信型発言を発話に適した発話形式発信情報に変換し、上記情報発信型発言として出力した発信情報の対応関係情報の識別子を上記発話形式発信情報に付与して出力する情報発信型発言情報解析部と、
    上記コメント型発言を入力として、上記コメント型発言を形態素解析してコメントキーワード候補を抽出すると共に上記コメント型発言として出力したコメントの対応関係情報の識別子を当該コメントキーワード候補に付与し、上記コメント型発言をそのまま発話形式コメントとして出力する、又は、上記コメント型発言を発話に適した発話形式コメントに変換して出力するコメント型発言情報解析部と、
    上記発話形式発信情報と上記発話形式コメントを入力として、上記発話形式発信情報とともに出力される識別子と上記発話形式コメントとともに出力される識別子がURLで一致する場合、当該発話形式発信情報を前文、当該発話形式コメントを後文とする発話候補を作成して出力する発話候補作成部と、
    を具備する発話候補作成装置。
  2. 請求項に記載した発話候補作成装置において、
    上記情報発信型発言情報解析部は、
    上記情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該発話情報キーワード候補に表層格のタグを付与すると共に、テンプレートに合致する発話情報キーワード候補にその意味を表すタグを付与する発言情報解析手段と、
    上記タグが付与された発話情報キーワード候補を、当該タグに対応した発話に適した発話形式発信情報に変換して出力する発言情報変換手段と、
    を備えることを特徴とする発話候補作成装置
  3. 請求項1または2に記載した発話候補作成装置において、
    上記コメント型発言情報解析部は、
    上記コメント型発言を入力として、所定の長さより短いコメント型発言を形態素解析してコメントキーワード候補を抽出するコメント解析手段と、
    上記コメント型発言をそのまま発話形式コメントとして出力する、又は、上記コメント型発言を発話に適した発話形式コメントに変換して出力するコメント変換手段と、
    を備えることを特徴とする発話候補作成装置。
  4. 請求項1に記載した発話候補作成装置で作成した発話候補を大量に記録した発話候補記憶部と、
    発話候補キーワードを入力として、発話候補記憶部に記録された発話候補から、上記発話候補キーワードを含む発話を検索して発話候補として出力する発話候補検索出力部と、
    を具備する発話候補作成装置。
  5. 情報発信元の発信情報と当該発信情報に対するコメントを含むマイクロブログであるユーザ発言を入力として、当該ユーザ発言に含まれる引用を表わす文字列の有無を判定し、引用ありの場合は当該文字列より前の前文をコメントに分類し、当該前文に対する後文に情報発信型ユーザリストに登録された情報発信型ユーザ名を含む場合は当該後文を発信情報として分類し、分類した上記コメントと発信情報を出力し、分類された上記コメントと発信情報を入力として、上記発信情報にURLが含まれるか否かを検索し、URLが含まれる場合はそのURLで識別が可能な識別子で上記コメントと発信情報とを対応付け、上記コメントをコメント型発言として、上記発信情報を情報発信型発言として出力すると共に、上記コメントと発信情報とを上記識別子で対応付けた対応関係情報を対応関係記憶部に記録する発言解析部と、
    上記情報発信型発言として出力した発信情報の対応関係情報の識別子付きの情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該情報発信型発言の意味を解析した後に、上記発話情報キーワード候補に表層格のタグを付与すると共に、テンプレートに合致する発話情報キーワード候補にその意味を表わすタグを付与する発言情報解析部と、
    上記コメント型発言として出力したコメントの対応関係情報の識別子付きのコメント型発言を入力として、所定の長さより短いコメント型発言を形態素解析してコメントキーワード候補を抽出し、当該コメントキーワード候補と上記コメント型発言をコメントキーワード候補記憶部に記録するコメント解析部と、
    発話情報キーワード候補の識別子を参照して、識別子で対応する複数のコメントキーワード候補から発言情報に対応させるコメントキーワードを決定する重複コメント抽出部と、
    上記コメントキーワードを含むコメント型発言をそのまま発話形式コメントとして出力する、又は、上記コメント型発言を発話に適した発話形式コメントに変換して出力するコメント変換部と、
    上記タグが付与された発話情報キーワード候補を、当該タグに対応した発話形式発信情報に変換する発言情報変換部と、
    上記発話形式発信情報と上記発話形式コメントを入力として、上記発話形式発信情報に対応する識別子付きの情報発信型発言の識別子と上記発話形式コメントに対応する識別子付きのコメント型発言の識別子がURLで一致する場合、当該発話形式発信情報を前文、当該発話形式コメントを後文とする発話候補を作成して出力する発話候補作成部と、
    を具備する発話候補作成装置。
  6. 発話候補作成装置が情報発信元の発信情報と当該発信情報に対するコメントを含むマイクロブログであるユーザ発言を入力として、発話候補を出力する発話候補作成方法であって、
    上記ユーザ発言を入力として、当該ユーザ発言に含まれる引用を表わす文字列の有無を判定し、引用ありの場合は当該文字列より前の前文をコメントに分類し、当該前文に対する後文に情報発信型ユーザリストに登録された情報発信型ユーザ名を含む場合は当該後文を発信情報として分類し、分類した上記コメントと発信情報を出力し、分類された上記コメントと発信情報を入力として、上記発信情報にURLが含まれるか否かを検索し、URLが含まれる場合はそのURLで識別が可能な識別子で上記コメントと発信情報とを対応付け、上記コメントをコメント型発言として、上記発信情報を情報発信型発言として出力すると共に、上記コメントと発信情報とを上記識別子で対応付けた対応関係情報を対応関係記憶部に記録する発言解析過程と、
    上記情報発信型発言を入力として当該情報発信型発言を形態素解析して発話情報キーワード候補を抽出し、当該情報発信型発言の意味を解析した後に、上記情報発信型発言を発話に適した発話形式発信情報に変換し、上記情報発信型発言に対応する発信情報の対応関係情報の識別子を上記発話形式発信情報に付与して出力する情報発信型発言情報解析過程と、
    上記コメント型発言を入力として、上記コメント型発言を形態素解析してコメントキーワード候補を抽出すると共に上記コメント型発言に対応するコメントの対応関係情報の識別子を当該コメントキーワード候補に付与し、上記コメント型発言をそのまま発話形式コメントとして出力する、又は、上記コメント型発言を発話に適した発話形式コメントに変換して出力するコメント型発言情報解析過程と、
    上記発話形式発信情報と上記発話形式コメントを入力として、上記発話形式発信情報とともに出力される識別子と上記発話形式コメントとともに出力される識別子がURLで一致する場合、当該発話形式発信情報を前文、当該発話形式コメントを後文とする上記発話候補を作成して出力する発話候補作成過程と、
    実行する発話候補作成方法。
  7. 請求項1乃至の何れか1項に記載した発話候補作成装置としてコンピュータを動作させるためのプログラム。
JP2013035865A 2013-02-26 2013-02-26 発話候補作成装置とその方法とプログラム Active JP5925143B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013035865A JP5925143B2 (ja) 2013-02-26 2013-02-26 発話候補作成装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013035865A JP5925143B2 (ja) 2013-02-26 2013-02-26 発話候補作成装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014164582A JP2014164582A (ja) 2014-09-08
JP5925143B2 true JP5925143B2 (ja) 2016-05-25

Family

ID=51615119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013035865A Active JP5925143B2 (ja) 2013-02-26 2013-02-26 発話候補作成装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5925143B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697373B2 (ja) 2016-12-06 2020-05-20 カシオ計算機株式会社 文生成装置、文生成方法及びプログラム
JP7545934B2 (ja) 2021-06-22 2024-09-05 Kddi株式会社 人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145541A (ja) * 2002-10-23 2004-05-20 Inosu:Kk チャットシステム

Also Published As

Publication number Publication date
JP2014164582A (ja) 2014-09-08

Similar Documents

Publication Publication Date Title
Abd El-Jawad et al. Sentiment analysis of social media networks using machine learning
Barbieri et al. Semeval 2018 task 2: Multilingual emoji prediction
KR101881114B1 (ko) 메시지들에서 태스크들 식별
Purver et al. Experimenting with distant supervision for emotion classification
Alhumoud et al. Survey on arabic sentiment analysis in twitter
Vosoughi et al. Tweet acts: A speech act classifier for twitter
US9514741B2 (en) Data shredding for speech recognition acoustic model training under data retention restrictions
US9779388B1 (en) Disambiguating organization names
Liew et al. EmoTweet-28: A fine-grained emotion corpus for sentiment analysis
KR101353521B1 (ko) 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
JP6225012B2 (ja) 発話文生成装置とその方法とプログラム
US20180226073A1 (en) Context-based cognitive speech to text engine
Nedoluzhko et al. ELITR minuting corpus: A novel dataset for automatic minuting from multi-party meetings in English and Czech
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
lvaro Cuesta et al. A Framework for massive Twitter data extraction and analysis
US9779363B1 (en) Disambiguating personal names
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
Xue et al. Isa: Intuit smart agent, a neural-based agent-assist chatbot
CN108153802B (zh) 对话代理、响应语句生成方法、以及计算机可读取的非易失性存储介质
González et al. Siamese hierarchical attention networks for extractive summarization
Qundus et al. AI supported topic modeling using KNIME-workflows
JP5925143B2 (ja) 発話候補作成装置とその方法とプログラム
CN113761194A (zh) 信息流的互动处理方法、装置、电子设备
Hedar et al. Mining social networks arabic slang comments
Vaseeharan et al. Review on sentiment analysis of twitter posts about news headlines using machine learning approaches and naïve bayes classifier

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160419

R150 Certificate of patent or registration of utility model

Ref document number: 5925143

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150