JP2010048953A - 対話文生成装置 - Google Patents

対話文生成装置 Download PDF

Info

Publication number
JP2010048953A
JP2010048953A JP2008211906A JP2008211906A JP2010048953A JP 2010048953 A JP2010048953 A JP 2010048953A JP 2008211906 A JP2008211906 A JP 2008211906A JP 2008211906 A JP2008211906 A JP 2008211906A JP 2010048953 A JP2010048953 A JP 2010048953A
Authority
JP
Japan
Prior art keywords
word
text
unit
speech recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008211906A
Other languages
English (en)
Inventor
Yuka Kobayashi
優佳 小林
Miwako Doi
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008211906A priority Critical patent/JP2010048953A/ja
Priority to US12/544,430 priority patent/US20100049500A1/en
Publication of JP2010048953A publication Critical patent/JP2010048953A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成可能な対話文生成装置を提供する。
【解決手段】第1のテキストを受信し、第1のテキストの返信となる第2のテキストを送信する送受信部101と、第1のテキストの内容をユーザに提示する提示部103と、第1のテキストに対して形態素解析を行い、第1のテキストを構成する第1の単語及び第1の単語の言語情報を得る形態素解析部104と、言語情報に基づき、第1のテキストの内容を特徴付ける第2の単語を第1の単語の中から選択する選択部105と、第1のテキストの提示後におけるユーザの発話に対して第2の単語を優先的に認識するように音声認識を行って、発話の内容を示す音声認識結果を生成する音声認識部108と、音声認識結果に基づき第2のテキストを生成する生成部109とを具備する。
【選択図】 図1

Description

本発明は、音声認識処理を利用する対話文生成装置に関する。
近年、電子メール、チャット及び電子掲示板(BBS)等の対話手段が多くのユーザによって利用されている。上記電子メール、チャット及びBBS等は、電話やボイスチャット等の音声ベースの対話手段とは異なり、比較的短いテキストをユーザ間でやり取りすることによって成立するテキストベースの対話手段である。テキストベースの対話手段を利用する場合、ユーザは入力手段としてキーボードや携帯電話機のテンキー等のテキスト入力インタフェースを使用する。一方、テキスト入力におけるユーザビリティを向上させてリズムの良い対話を実現させるために、音声認識処理に基づくテキスト入力インタフェースが使用されることがある。
音声認識処理では、ユーザの発話が音響的観点及び言語的観点に基づいて所定の待ち受け単語に順次置き換えられ、当該発話の内容を示す待ち受け単語列で構成される言語テキストが生成される。上記待ち受け単語を少なくすると、個々の単語の認識精度は高くなるものの、認識可能な単語数が減る。一方、上記待ち受け単語を多くすると認識可能な単語数が増えるものの、個々の単語を誤認識するおそれが高くなる。従って、音声認識処理の認識精度を効率的に上昇させるために、ユーザの発話に含まれることが期待される特定の単語を優先的に認識させたり、上記特定の単語のみを認識させたりすることが提案されている。
特許文献1記載の電子メール通信装置は、電子メール本文中において待ち受け単語を記述するためのフォーマットを予め規定しているため、当該フォーマットに従って受信メールから待ち受け単語を抽出できる。従って、特許文献1記載の電子メール通信装置によれば、上記フォーマットに基づき抽出された待ち受け単語を優先的に認識することにより、高い認識精度を期待できる。
特許文献2記載の応答データ出力装置は、疑問文の文末に用いられる文末語に基づいてテキストデータから疑問文を推定する。上記応答データ出力装置は、推定した疑問文に「何時に」及び「何処で」等の特定の文節が存在すれば当該文節に応じて、時刻及び場所を表す単語を夫々優先的に認識する。一方、上記応答データ出力装置は、上記疑問文に「何時に」及び「何処で」等の特定の文節が存在しなければ「はい」及び「いいえ」等の単語を優先的に認識する。従って、特許文献2記載の応答データ出力装置によれば、疑問文に対するユーザの音声応答において、高い認識精度を期待できる。
特許文献3記載の音声認識・合成装置は、入力テキストに対して形態素解析を行い、当該入力テキストを構成する単語のみを待ち受け単語として利用することにより、当該待ち受け単語に対して高い認識精度を期待できる。
特開2002−351791号公報 特開2006−172110号公報 特開2003−99089号公報
特許文献1記載の電子メール通信装置は、所定のフォーマットに従わなければ、待ち受け単語を電子メール本文において記述できない。即ち、特許文献1記載の電子メール通信装置は、対話の形式が制限されるため、対話の自由度が損なわれる。
特許文献2記載の応答データ出力装置は、疑問文に対する応答において高い認識精度を期待できる。一方、上記応答データ出力装置は、疑問文以外の平叙文、感嘆文及び命令文に対する応答において認識精度を向上させるものでない。
特許文献3記載の音声認識・合成装置は、メニュー選択やリンク先情報の取得等を目的とし、入力テキストを構成する単語のみを認識するものである。即ち、ユーザの発話として、1単語または比較的少数の単語列が想定されている。しかしながら、テキストを入力する場合、入力テキスト(例えば、受信メール)に含まれない単語を認識する必要がある。
従って、本発明は、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成可能な対話文生成装置を提供することを目的とする。
本発明の一態様に係る対話文生成装置は、第1のテキストを受信し、前記第1のテキストの返信となる第2のテキストを送信する送受信部と、前記第1のテキストの内容をユーザに提示する提示部と、前記第1のテキストに対して形態素解析を行い、当該第1のテキストを構成する第1の単語及び当該第1の単語の言語情報を得る形態素解析部と、前記言語情報に基づき、前記第1のテキストの内容を特徴付ける第2の単語を前記第1の単語の中から選択する選択部と、前記第1のテキストの提示後における前記ユーザの発話に対して前記第2の単語を優先的に認識するように音声認識を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、前記音声認識結果に基づき前記第2のテキストを生成する生成部とを具備する。
本発明の一態様に係る対話文生成方法は、第1のテキストを受信することと、前記第1のテキストの内容をユーザに提示することと、前記第1のテキストに対して形態素解析を行い、当該第1のテキストを構成する第1の単語及び当該第1の単語の言語情報を得ることと、前記言語情報に基づき、前記第1のテキストの内容を特徴付ける第2の単語を前記第1の単語の中から選択することと、前記第1のテキストの提示後における前記ユーザの発話に対して前記第2の単語を優先的に認識するように音声認識を行って、前記発話の内容を示す音声認識結果を生成することと、前記音声認識結果に基づき前記第1のテキストの返信となる第2のテキストを生成することと、前記第2のテキストを送信することとを具備する。
本発明によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成可能な対話文生成装置を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る対話文生成装置は、テキスト送受信部101、音声合成部102、スピーカ103、形態素解析部104、優先単語設定部105、待ち受け単語記憶部106、マイクロホン107、連続音声認識部108及び返信テキスト生成部109を有する。
テキスト送受信部101は、ユーザが対話を行う相手(以下、単に対話相手と称する)からテキスト(以下、単に受信テキストと称する)を受信したり、対話相手にテキスト(以下、単に返信テキストと称する)を送信したりする。上記テキストの送受信は、メールプロトコル等の所定の通信プロトコルに従って、有線ネットワークまたは無線ネットワークを介して行われる。上記テキストは、ユーザと対話相手との間の対話を実現する対話手段によって様々な態様が考えられ、例えば電子メール本文、チャットメッセージまたはBBSの投稿メッセージが挙げられる。また、テキスト送受信部101は、受信テキストに画像ファイルや音声ファイル等が添付されている場合にはこれらを受信してもよいし、返信テキストにこれらを添付して送信してもよい。また、受信テキストの添付データがテキストデータである場合には、当該添付データも受信テキストと同様に扱ってよい。テキスト送受信部101は、受信テキストを音声合成部102及び形態素解析部104に入力する。
音声合成部102は、テキスト送受信部101からの受信テキストに応じて所定の音声データを合成する音声合成処理を行うことにより、当該受信テキストを音声データに変換する。音声合成部102によって合成された音声データは、スピーカ103を介してユーザに提示される。また、音声合成部102及びスピーカ103は、後述する連続音声認識部108によって入力されるエラーメッセージ等のテキストに対しても同様の処理を行う。
形態素解析部104は、テキスト送受信部101からの受信テキストに対して形態素解析処理を行う。具体的には、上記形態素解析処理によって受信テキストを構成する単語が得られ、更に当該単語の読み情報、品詞情報、基本形及び活用形等の言語情報が得られる。形態素解析部104は、上記受信テキストに対する形態素解析結果を優先単語設定部105に入力する。
優先単語設定部105は、後述する連続音声認識部108によって優先的に認識されることが望ましい単語(以下、単に優先単語と称する)を、形態素解析部104からの形態素解析結果の中から選択する。優先単語は、受信テキストに対するユーザからの入力音声に含まれる可能性の高い単語であることが望ましく、一例として受信テキストの内容を特徴付ける単語が挙げられる。優先単語設定部105は、選択した優先単語を待ち受け単語記憶部106に設定する。尚、優先単語の具体的な選択手法及び設定手法は後述する。待ち受け単語記憶部106には、後述する連続音声認識部108の行う音声認識処理において認識候補となる待ち受け単語が記憶されている。待ち受け単語記憶部106には、一般的な単語が待ち受け単語として網羅的に記憶されている。
マイクロホン107は、ユーザからの発話を受け、音声データを連続音声認識部108に入力する。連続音声認識部108は、マイクロホン107を介して受信したユーザの入力音声に対して連続音声認識処理を行う。具体的には、連続音声認識部108は、上記入力音声と、待ち受け単語記憶部106に記憶されている待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該入力音声を待ち受け単語で構成される言語テキストに変換する。連続音声認識部108は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、音声合成部102に入力する。また、連続音声認識部108は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果及び所定の承認要求メッセージを音声合成部102に入力する。
返信テキスト生成部109は、連続音声認識部108からの音声認識結果に基づき返信テキストを生成する。例えば、返信テキスト生成部109は、上記音声認識結果を本文とする電子メール、チャットメッセージまたはBBSの投稿メッセージ等を生成する。返信テキスト生成部109は、生成した返信テキストをテキスト送受信部101に入力する。
図1の対話文生成装置が行う処理を大別すると図2に示す通りである。まず、図1の対話文生成装置は、対話相手からテキスト(受信テキスト)を受信する(ステップS10)。次に、図1の対話文生成装置は、ステップS10において受信した受信テキストをユーザに提示し、ユーザから音声による応答を受け、当該音声の音声認識結果に基づき返信テキストを生成する(ステップS20)。尚、ステップS20の処理の詳細は後述する。最後に、図1の対話文生成装置は、ステップS20において生成した返信テキストを対話相手へ送信し(ステップS30)、処理は終了する。
以下、図3を用いて図2の返信テキストの生成処理の詳細を説明する。
まず、テキスト送受信部101によって受信された受信テキストは、音声合成部102によって音声データに変換され、スピーカ103を介して読み上げられる(ステップS201)。
また、上記受信テキストは、形態素解析部104によって形態素解析される(ステップS202)。次に、優先単語設定部105は、ステップS202における形態素解析結果の中から優先単語を選択し、待ち受け単語記憶部106に設定する(ステップS203)。ここで、優先単語設定部105による優先単語の選択手法及び設定手法の具体例を説明する。
例えば、図4Aに示す日本語の受信テキストの形態素解析結果は、図4Bに示す通りである。優先単語設定部105は、受信テキストが日本語テキストであれば、助詞及び助動詞は、受信テキストの内容を特徴付ける単語ではないものとみなし、これらを優先単語として選択しない。即ち、優先単語設定部105は、形態素解析結果の中から品詞が名詞、動詞、形容詞、副詞及び感動詞である単語を優先単語として選択する。但し、優先単語設定部105は、1文字単語は優先単語として選択せず、また、図4Bにおける「ひい」及び「て」のように単独で発話されないものは連結したうえで選択する。
また、形態素解析部104は、固有名詞や特殊な専門用語を解析できず、品詞情報を含む言語情報が得られない可能性がある。形態素解析部104が解析できない単語は、形態素解析結果において「未知語」として出力される(例えば、図4Bにおける「GW」)。上記未知語が、固有名詞や特殊な専門用語であれば、受信テキストの内容をより特徴付ける単語であると考えられる。例えば、受信テキストに含まれていた個人名や地名等の固有名詞が、ユーザからの入力音声に再度含まれる可能性は高い。
図4Bの例であれば、優先単語設定部105は、「こんにちは」、「風邪」、「ひいて」、「GW」、「楽しみ」、「今度」、「そっち」、「遊び」及び「行く」を優先単語として選択する。
また、図6Aに示す英語の受信テキストの形態素解析結果は、図6Bに示す通りである。図6Bにおいて、品詞情報は所定の記号によって特定されている。優先単語設定部105は、受信テキストが英語テキストであれば、代名詞(I, you, it)、完了形を示すhave、冠詞(a, the)、前置詞(about, to)、疑問詞(how)及びbe動詞は、受信テキストの内容を特徴付ける単語ではないものとみなし、これら以外の単語を優先単語として選択する。
また、形態素解析部104は、固有名詞や特殊な専門用語を解析できず、品詞情報を含む言語情報が得られない可能性がある。形態素解析部104が解析できない単語は、形態素解析結果において「unknown」として出力される。上記未知語が、固有名詞や特殊な専門用語であれば、受信テキストの内容をより特徴付ける単語であると考えられる。例えば、受信テキストに含まれていた個人名や地名等の固有名詞が、ユーザからの入力音声に再度含まれる可能性は高い。
図6Bの例であれば、優先単語設定部105は、「hello」、「heard」、「caught」、「cold」、「hope」、「recovered」、「health」、「now」、「summer」、「vacation」、「coming」、「soon」、「can’t」、「wait」、「going」、「visit」、「looking」及び「forward」を優先単語として選択する。
前述したように待ち受け単語記憶部106には、一般的な単語が既に網羅的に登録されているため、優先単語設定部105は選択した優先単語を待ち受け単語記憶部106に単に追加するのではなく、連続音声認識部108によって優先的に認識されるように設定する必要がある。例えば連続音声認識部108が、ユーザからの入力音声と待ち受け単語との間の音響的類似度及び言語的信頼度をスコア化し、最上位の待ち受け単語を認識結果として出力すると仮定する。上記例であれば、優先単語設定部105は、連続音声認識部108によって行われる音声認識処理において、優先単語に対し算出されるスコアに所定値を上乗せさせたり、上位候補(例えば、スコア上位5候補まで)に優先単語が含まれていれば当該優先単語を認識結果として(即ち、スコア最上位の待ち受け単語として扱って)出力させたりするような設定を行う。
ステップS201乃至S203の処理が終了すると、図1の対話文生成装置はユーザからの発話を待機する。尚、ステップS201の処理と、ステップS202及びS203の処理とは、逆順に行われてもよいし、並行して行われてもよい。マイクロホン107を介してユーザから発話を受けると、連続音声認識部108は音声認識処理を行う(ステップS204)。連続音声認識部108は、ユーザからの発話が一定時間途絶えると音声認識処理を終了する。
ステップS204において、連続音声認識部108による音声認識は、必ずしも成功しない。例えば、ユーザの発声が不明瞭である場合や周囲の環境音が大きい場合等に連続音声認識部108が音声認識に失敗するおそれがある。連続音声認識部108が音声認識に成功すれば処理はステップS208に進み、音声認識に失敗すれば処理はステップS206に進む(ステップS205)。
ステップS206において、連続音声認識部108は、「音声が認識できませんでした、もう一度やり直しますか」等の所定のエラーメッセージを音声合成部102に入力する。上記エラーメッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。ユーザは、上記エラーメッセージが音声提示されることによって、連続音声認識部108による音声認識の失敗を確認できる。上記エラーメッセージに対してユーザから再認識が要求されれば処理はステップS204に戻り、そうでなければ連続音声認識部108は文章を認識できなかった旨のメッセージを音声合成部102及びスピーカ103を介してユーザに提示して処理は終了する(ステップS207)。ここで、ユーザが再認識を要求する態様は特に限定されないが、例えばユーザは「はい」を発話したり、対話文生成装置に備えられた所定のボタンを押下したりすることにより再認識を要求する。
ステップS208において、連続音声認識部108は、ステップS205における音声認識結果と共に「これでいいですか、それとももう一度認識しなおしますか?」等の所定の承認要求メッセージを音声合成部102に入力する。上記音声認識結果及び承認要求メッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。上記承認要求メッセージに対してユーザから承認が得られれば処理はステップS210に進み、そうでなければ処理はステップS204に戻る(ステップS209)。ここで、ユーザが音声認識結果を承認する態様は特に限定されないが、例えばユーザは「はい」を発話したり、対話文生成装置に備えられた所定のボタンを押下したりすることにより音声認識結果を承認する。ステップS210において、返信テキスト生成部109が、ステップS209においてユーザによって承認された音声認識結果に基づき返信テキストを生成し、処理は終了する。
図4Aに示す受信テキストに関する、図1の対話文生成装置の使用例を図5に示す。尚、図5及び他の使用例を示す各図において図1の対話文生成装置は、エージェントと称するロボット型の端末として描かれているが、上記対話文生成装置の形態はこのようなロボット型に限られないものとする。図4Aの受信テキストは、図1の対話文生成装置によって読み上げられる。ユーザは読み上げられた受信テキストに対し、「ひいてないよ、大丈夫だよ。楽しみにしているよ、早くきてね。」と発話したとする。
前述したように、図4Aの受信テキストに基づき、優先単語設定部105が優先単語として「こんにちは」、「風邪」、「ひいて」、「GW」、「楽しみ」、「今度」、「そっち」、「遊び」及び「行く」を設定するので、これらの単語は連続音声認識部108によって優先的に認識される。上記優先単語は、受信テキストの内容を特徴付けるものであって、返信テキストにおいても正しく認識されることが望ましい。
図5では、前述したユーザの発話の音声認識結果として、「ひいてないよ、タイ丈夫だよ。楽しみにしているよ、早くいてね。」が得られる。このように実際の音声認識結果において、優先単語でない「大丈夫」は「タイ丈夫」、「きてね」は「いてね」のように誤って認識されているおそれがある。しかしながら、優先単語として設定されている「ひいて」及び「楽しみ」は高確率で認識されることが期待できる。即ち、図1の対話文生成装置によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成することができる。
図6Aに示す受信テキストに関する、図1の対話文生成装置の使用例を図7に示す。図6Aの受信テキストは、図1の対話文生成装置によって読み上げられる。ユーザは読み上げられた受信テキストに対し、「Hello, I've recovered. I'm fine now. I'm looking forward to your coming. I'm going to cook special dinner for you.」と発話したとする。
前述したように、図6Aの受信テキストに基づき、優先単語設定部105が優先単語として「hello」、「heard」、「caught」、「cold」、「hope」、「recovered」、「health」、「now」、「summer」、「vacation」、「coming」、「soon」、「can’t」、「wait」、「going」、「visit」、「looking」及び「forward」を設定するので、これらの単語は連続音声認識部108によって優先的に認識される。上記優先単語は、受信テキストの内容を特徴付けるものであって、返信テキストにおいても正しく認識されることが望ましい。
図7では、前述したユーザの発話の音声認識結果として、「Hello, I've recovered. I'm mine now. I'm looking forward to your coming. I'm going to cook special wine for you.」が得られる。このように実際の音声認識結果において、優先単語でない「fine」は「mine」、「dinner」は「wine」のように誤って認識されているおそれがある。しかしながら、優先単語として設定されている「hello」、「recovered」、「now」、「coming」、「going」、「looking」及び「forward」は高確率で認識されることが期待できる。即ち、図1の対話文生成装置によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成することができる。
以上説明したように、本実施形態に係る対話文生成装置は、受信テキストを形態素解析して得られた単語の中から当該受信テキストの内容を特徴付ける単語優先単語を選択し、上記受信テキストに対するユーザの発話を音声認識する際に当該優先単語を優先的に認識する。従って、本実施形態に係る対話文生成装置によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成することができる。
(第2の実施形態)
図8に示すように、本発明の第2の実施形態に係る対話文生成装置は、テキスト送受信部101、音声合成部102、スピーカ103、形態素解析部104、待ち受け単語設定部305、待ち受け単語記憶部306、マイクロホン107、返信テキスト生成部309、音声認識部310及び待ち受け単語記憶部320を有する。以下の説明では、図8において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
待ち受け単語設定部305は、後述する孤立単語音声認識部311の行う音声認識処理において認識候補となる待ち受け単語を、形態素解析部104からの形態素解析結果の中から選択する。上記孤立単語音声認識部311の待ち受け単語は、受信テキストに対するユーザからの入力音声に含まれる可能性の高い単語であることが望ましく、一例として受信テキストの内容を特徴付ける単語が挙げられる。待ち受け単語設定部305は、選択した待ち受け単語を待ち受け単語記憶部320に設定する。待ち受け単語設定部305は、前述した優先単語設定部105が優先単語を選択する場合と同様に、待ち受け単語を選択するものとする。更に、待ち受け単語設定部305は、前述した優先単語設定部105と同様の優先単語設定処理を待ち受け単語記憶部320に対して行ってもよい。待ち受け単語記憶部306には、待ち受け単語設定部305によって設定される待ち受け単語が記憶される。
音声認識部310は、孤立単語音声認識部311及び連続音声認識部312を有する。
孤立単語音声認識部311は、マイクロホン107を介して受信したユーザからの入力音声に対して孤立単語音声認識処理を行う。具体的には、孤立単語音声認識部311は、上記入力音声と、待ち受け単語記憶部306に記憶されている待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該入力音声の一部を待ち受け単語に変換する。孤立単語音声認識部311の待ち受け単語は、待ち受け単語設定部305によって待ち受け単語記憶部306に設定されたものに限られる。従って、孤立単語音声認識部311は、上記待ち受け単語を高確率に認識できる。
連続音声認識部312は、マイクロホン107を介して受信したユーザからの入力音声に対して連続音声認識処理を行う。具体的には、連続音声認識部312は、上記入力音声と、待ち受け単語記憶部320に記憶されている待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該入力音声を待ち受け単語で構成される言語テキストに変換する。
音声認識部310は、上記孤立単語音声認識部311の孤立単語音声認識結果と、連続音声認識部312の連続音声認識結果とを統合した音声認識結果を返信テキスト生成部309に出力する。具体的には、音声認識部310から出力される音声認識結果は、連続音声認識部312の連続音声認識結果によって、上記孤立単語音声認識部311の孤立単語音声認識結果が補完されたものとなる。
また、音声認識部310は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、音声合成部102に入力する。また、音声認識部310は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果を音声合成部102に入力する。
待ち受け単語記憶部320には、連続音声認識部312の行う音声認識処理において認識候補となる待ち受け単語が記憶されている。待ち受け単語記憶部320には、一般的な単語が待ち受け単語として網羅的に記憶されている。
返信テキスト生成部309は、音声認識部310からの音声認識結果に基づき返信テキストを生成する。例えば、返信テキスト生成部309は、上記音声認識結果を本文とする電子メール、チャットメッセージまたはBBSの投稿メッセージ等を生成する。返信テキスト生成部309は、生成した返信テキストをテキスト送受信部101に入力する。
図4Aに示す受信テキストに関する、図8の対話文生成装置の使用例を図9に示す。図4Aの受信テキストは、図8の対話文生成装置によって読み上げられる。ユーザは読み上げられた受信テキストに対し、「ひいてないよ、大丈夫だよ。楽しみにしているよ、早くきてね。」と発話したとする。
前述したように、図4Aの受信テキストに基づき、待ち受け単語設定部305が孤立単語音声認識部311の待ち受け単語として「こんにちは」、「風邪」、「ひいて」、「GW」、「楽しみ」、「今度」、「そっち」、「遊び」及び「行く」を設定するので、これらの単語は孤立単語音声認識部311によって高確率に認識される。上記待ち受け単語は、受信テキストの内容を特徴付けるものであって、返信テキストにおいても正しく認識されることが望ましい。
図9では、前述したユーザの発話の孤立単語音声認識結果として、「ひいて」及び「楽しみ」が得られる。更に、上記孤立単語音声認識結果を補完する連続音声認識結果として、「(ひいて)ないよ、タイ丈夫だよ。(楽しみ)にしているよ、早くいてね。」が得られる。従って、両者が統合され、最終的な音声認識結果として「ひいてないよ、タイ丈夫だよ。楽しみにしているよ、早くいてね。」が得られる。このように実際の音声認識結果において、孤立単語音声認識部311の待ち受け単語でない「大丈夫」は「タイ丈夫」、「きてね」は「いてね」のように誤って認識されているおそれがある。しかしながら、孤立単語音声認識部311の待ち受け単語として設定されている「ひいて」及び「楽しみ」は高確率で認識されることが期待できる。即ち、図8の対話文生成装置によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成することができる。
図6Aに示す受信テキストに関する、図1の対話文生成装置の使用例を図10に示す。図6Aの受信テキストは、図8の対話文生成装置によって読み上げられる。ユーザは読み上げられた受信テキストに対し、「Hello, I've recovered. I'm fine now. I'm looking forward to your coming. I'm going to cook special dinner for you.」と発話したとする。
前述したように、図6Aの受信テキストに基づき、待ち受け単語設定部305が孤立単語音声認識部311の待ち受け単語として「hello」、「heard」、「caught」、「cold」、「hope」、「recovered」、「health」、「now」、「summer」、「vacation」、「coming」、「soon」、「can’t」、「wait」、「going」、「visit」、「looking」及び「forward」を設定するので、これらの単語は孤立単語音声認識部311によって高確率に認識される。上記待ち受け単語は、受信テキストの内容を特徴付けるものであって、返信テキストにおいても正しく認識されることが望ましい。
図10では、前述したユーザの発話の孤立単語音声認識結果として、「Hello,」、「recovered.」、「now.」、「looking forward」、「coming.」及び「going」が得られる。更に、上記孤立単語音声認識結果を補完する連続音声認識結果として、「(Hello,) I've (recovered.) I'm mine (now.) I'm (looking forward) to your (coming.) I'm (going) to cook…」が得られる。従って、両者が統合され、最終的な音声認識結果として「Hello, I've recovered. I'm mine now. I'm looking forward to your coming. I'm going to cook…」が得られる。このように実際の音声認識結果において、孤立単語音声認識部311の待ち受け単語でない「fine」は「mine」のように誤って認識されているおそれがある。しかしながら、孤立単語音声認識部311の待ち受け単語として設定されている「Hello,」、「recovered.」、「now.」、「looking forward」、「coming.」及び「going」は高確率で認識されることが期待できる。即ち、図8の対話文生成装置によれば、対話の自由度を損なうことなく、受信テキストに対して適切な返信テキストをユーザの発話に基づき生成することができる。
以上説明したように、本実施形態に係る対話文生成装置は、孤立単語音声認識処理と連続音声認識処理とを組み合わせ、上記孤立単語音声認識処理における待ち受け単語として前述した第1の実施形態における優先単語を利用している。従って、本実施形態に係る対話文生成装置によれば、孤立単語音声認識処理において、上記優先単語に相当する待ち受け単語を高確率に認識することが可能となる。
(第3の実施形態)
図11に示すように、本発明の第3の実施形態に係る対話文生成装置は、上記図8に示す対話文生成装置において、待ち受け単語設定部305を待ち受け単語設定部405に置き換え、更に関連単語データベース430を設けている。以下の説明では、図11において図8と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
関連単語データベース430には、各単語と他の単語との間の関連、具体的には各単語に関連する関連単語が記述されている。具体的記述方式は特に限定されないが、例えばマークアップ言語の1つであるOWL(Web Ontology Language)を用いて関連単語が記述される。
例えば、図13に示す例では、「風邪」の関連単語として「予防」、「せき」、「鼻水」及び「元気」が記述されている。具体的には、「風邪」は「病気」というクラスに属していること、「風邪」は「予防」という言葉と関連性があること、「風邪」は「せき」及び「鼻水」の症状を持つこと及び「風邪」の対義語が「元気」であることが記述されている。
また、図15に示す例では、「cold」の関連単語として「prevention」、「cough」、「running nose」及び「fine」が記述されている。具体的には、「cold」は「disease」というクラスに属していること、「cold」は「prevention」という言葉と関連性があること、「cold」は「cough」及び「running nose」の症状を持つこと及び「cold」の対義語が「fine」であることが記述されている。
待ち受け単語設定部405は、前述した待ち受け単語設定部305と同様に、孤立単語音声認識部311の待ち受け単語を待ち受け単語記憶部306に設定する。更に、待ち受け単語設定部405は、上記待ち受け単語の関連単語を関連単語データベース430から検索し、当該関連単語も待ち受け単語として待ち受け単語記憶部306に設定する。
以下、図12を用いて図11の対話文生成装置による返信テキストの生成処理の詳細を説明する。
まず、テキスト送受信部101によって受信された受信テキストは、音声合成部102によって音声データに変換され、スピーカ103を介して読み上げられる(ステップS501)。
また、上記受信テキストは、形態素解析部104によって形態素解析される(ステップS502)。次に、待ち受け単語設定部405は、ステップS502における形態素解析結果の中から孤立単語音声認識部311の待ち受け単語を選択し、当該待ち受け単語の関連単語を関連単語データベース430から検索する(ステップS503)。次に、待ち受け単語設定部405は、ステップS502における形態素解析結果の中から選択した待ち受け単語と、当該待ち受け単語の関連単語とを待ち受け単語記憶部306に設定する(ステップS504)。
ステップS501乃至S504の処理が終了すると、図11の対話文生成装置はユーザの発話を待機する。尚、ステップS501の処理と、ステップS502乃至S504の処理とは、逆順に行われてもよいし、並行して行われてもよい。マイクロホン107を介してユーザから発話を受けると、音声認識部310は音声認識処理を行う(ステップS505)。音声認識部310は、ユーザの発話が一定時間途絶えると音声認識処理を終了する。
ステップS505において、音声認識部310が音声認識に成功すれば処理はステップS509に進み、音声認識に失敗すれば処理はステップS507に進む(ステップS506)。
ステップS507において、音声認識部310は、所定のエラーメッセージを音声合成部102に入力する。上記エラーメッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。ユーザは、上記エラーメッセージが音声提示されることによって、音声認識部310による音声認識の失敗を確認できる。上記エラーメッセージに対してユーザから再認識が要求されれば処理はステップS505に戻り、そうでなければ音声認識部310は文章を認識できなかった旨のメッセージを音声合成部102及びスピーカ103を介してユーザに提示して処理は終了する(ステップS508)。
ステップS509において、音声認識部310は、ステップS506における音声認識結果と共に所定の承認要求メッセージを音声合成部102に入力する。上記音声認識結果及び承認要求メッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。上記承認要求メッセージに対してユーザから承認が得られれば処理はステップS511に進み、そうでなければ処理はステップS505に戻る(ステップS510)。ステップS511において、返信テキスト生成部309が、ステップS510においてユーザによって承認された音声認識結果に基づき返信テキストを生成し、処理は終了する。
図14は、図11の対話文生成装置の使用例を示す。図14において、受信テキストは、「こんにちは、風邪などひいてないですか?もうすぐGWですね。楽しみです。今度そっちに遊びに行くので楽しみにしていてくださいね。」である。待ち受け単語設定部405は、上記受信テキストの形態素解析結果の中から孤立単語音声認識部311の待ち受け単語を選択すると共に、当該待ち受け単語の関連単語を関連単語データベース430から検索する。関連単語データベース430に対する検索の結果、以下のような関連単語が得られ、待ち受け単語記憶部306に設定されたものとする。
「こんにちは」:「おはよう」、「こんばんは」、「おやすみ」、「さようなら」
「風邪」:「予防」、「せき」、「鼻水」、「元気」
「GW」:「夏休み」、「お正月」、「春休み」、「冬休み」
「楽しみ」:「悲しみ」、「喜び」
「今度」:「また」、「次回」
「そっち」:「こっち」、「あっち」
「遊び」:「仕事」
「行く」:「来る」、「着く」
図14において、上記受信テキストに対するユーザの入力音声は、「元気にしているよ。こっちに遊びに来るのはひさしぶりだね。楽しみにしているよ。」である。ユーザの発話のうち、「元気」、「こっち」、「遊び」、「来る」及び「楽しみ」は、待ち受け単語記憶部306に設定されているため、孤立単語音声認識部311によって高確率に認識される。例えば、図14に示すように、ユーザの入力音声の音声認識結果は、「元気にきているよ。こっちに遊びに来るのはひさしぶりだね。楽しみにして要るよ。」となる。
図16は、図11の対話文生成装置の他の使用例を示す。図16において、受信テキストは、「Hello, I heard you'd caught a cold. I hope you've recovered. How about your health now? Summer vacation is coming soon. I can't wait. I'm going to visit you. I'm looking forward to it.」である。待ち受け単語設定部405は、上記受信テキストの形態素解析結果の中から孤立単語音声認識部311の待ち受け単語を選択すると共に、当該待ち受け単語の関連単語を関連単語データベース430から検索する。関連単語データベース430に対する検索の結果、以下のような関連単語が得られ、待ち受け単語記憶部306に設定されたものとする。
「hello」:「good morning」、「good evening」、「good night」、「good bye」
「cold」:「prevention」、「cough」、「running nose」、「fine」
「summer」:「spring」、「fall」、「autumn」、「winter」、「Christmas」
「vacation」:「holiday」、「weekend」、「weekday」
図16において、上記受信テキストに対するユーザの入力音声は、「Hello, I've recovered. I'm fine now. I'm looking forward to your coming, because you can't come on Christmas holidays. I'm coming to cook special dinner for you.」である。ユーザの発話のうち、「hello」、「recovered」、「fine」、「now」、「looking」、「forward」、「can't」、「Christmas」、「holiday」及び「going」は、待ち受け単語記憶部306に設定されているため、孤立単語音声認識部311によって高確率に認識される。例えば、図16に示すように、ユーザの入力音声の音声認識結果は、「Hello, I've recovered. I'm fine now. I'm looking forward to your coming, because you can't come on Christmas holidays. I'm coming to cook special dinner for you.」となる。
以上説明したように、本実施形態に係る対話文生成装置は、受信テキストを形態素解析して得られる単語の中から選択された待ち受け単語と、当該待ち受け単語の関連単語とを孤立音声認識処理における待ち受け単語として利用している。従って、本実施形態に係る対話文生成装置によれば、受信テキストに含まれない単語であっても上記関連単語であれば孤立単語音声認識処理において高確率に認識することができるため、対話の自由度を更に向上させることが可能となる。
(第4の実施形態)
前述した第1乃至第3の実施形態に係る対話文生成装置は、受信テキストを全て読み上げたうえでユーザの発話を受けるように構成されている。しかしながら、受信テキストが比較的長い場合には、ユーザがテキスト全体の内容を把握することが難しくなり、例えば冒頭部分の内容を忘れてしまう。更に、優先単語や待ち受け単語として設定される単語数も増えるため、認識精度が劣化する問題もある。上記問題を考慮すると、受信テキストを適当な単位で区切ってユーザに提示し、発話を受けることが望ましい。そこで、本発明の第4の実施形態に係る対話文生成装置は、前述した第1乃至第3の実施形態に係る対話文生成装置において、テキスト送受信部101の後段に図示しないテキスト分割部850を設けて構成される。
テキスト分割部850は、受信テキストを所定の分割ルールに従って分割し、分割されたテキスト(以下、単に分割テキストと称する)を形態素解析部104及び音声合成部102に順次入力する。上記分割ルールは、例えば受信テキストを1文毎に分割するものであってもよいし、文よりも大きな言語単位(例えば話題(トピック))で分割するものであってもよい。話題単位で受信テキストを分割する場合、改行の有無や話題の転換を示す表現の有無に基づいて受信テキストが分割される。話題の転換を示す表現は、日本語であれば「そういえば」、「ところで」及び「話は変わるけど」等が挙げられ、英語であれば「By the way」、「Well」及び「Now」等が挙げられる。また、上記分割ルールは、受信テキストに質問文が含まれていれば、当該質問文を分割テキストとするものであってもよい。質問文の検出は、例えば「?」や疑問詞の有無、或いは文末が疑問形であるか否か等に基づき実現可能である。
前述した第1乃至第3の実施形態に係る対話文生成装置は、図2のフローチャートに沿って処理を行うが、本実施形態に係る対話文生成装置は、図17のフローチャートに沿って処理を行う。即ち、図2のステップS20は、図17においてステップS21乃至S24に置き換えられる。
ステップS21において、テキスト分割部850は受信テキストを前述したように分割する。次に、ステップS21において分割された分割テキストに対する返信テキストの生成処理が行われる(ステップS22)。尚、ステップS22における処理内容は、ステップS20と同様であるが、処理単位が受信テキスト全体でなく分割テキストである点において異なる。
ステップS22の処理が行われていない分割テキストが残存していれば次の分割テキストを対象にステップS22の処理が行われ、残存していなければ処理はステップS24に進む。ステップS24において、返信テキスト生成部309は、分割テキスト単位に生成された返信テキストを統合する。
図18は、受信テキスト「こんにちは、風邪などひいてないですか?果物は無事届きました。とってもおいしかったです、ありがとう。そういえば、この間天気がよかったので桜を見に行きました。とてもきれいでした。
もうすぐGWですね。楽しみです。今度そっちに遊びに行くので楽しみにしていてくださいね。」の分割例を示す。まず、テキスト分割部850は、上記受信テキストを冒頭から順に探索すると質問文を示す「?」を検出できるので、「こんにちは、風邪などひいてないですか?」を第1の分割テキストとして出力する。次に、テキスト分割部850は、受信テキストの残存部分において話題の転換を示す表現である「そういえば」を検出できるので、「果物は無事届きました。とってもおいしかったです、ありがとう。」を第2の分割テキストとして出力する。次に、テキスト分割部850は、受信テキストの残存部分において改行を検出できるので、「そういえば、この間天気がよかったので桜を見に行きました。とてもきれいでした。」を第3の分割テキストとして出力する。最後に、テキスト分割部850は、上記受信テキストの残存部分である「もうすぐGWですね。楽しみです。今度そっちに遊びに行くので楽しみにしていてくださいね。」を第4の分割テキストとして出力する。
上記第2の分割テキストに関する返信テキスト生成の様子を図19に示す。このように、第1乃至第4の分割テキストの各々に対し返信テキストの生成処理が順次行われる。図20は、上記第1乃至第4の分割テキストに対する返信テキストを統合した結果を示す。図20では、上記第1乃至第4の分割テキストが引用され、スレッド形式で返信テキストが統合されている。スレッド形式で返信テキストを表示すれば、個々の返信テキストを単純に統合する場合に比べて対話相手が返信内容を容易に把握することが可能となる。
図21は、受信テキスト「Hello, I heard you'd caught a cold. I hope you've recovered. How about you health now? Last weekend, I went on a picnic to the flower park. I could look at many hydrangeas. It's beautiful. Well, summer vacation is coming soon. I can't wait. I'm going to visit you. I'm looking forward to it.」の分割例を示す。まず、テキスト分割部850は、上記受信テキストを冒頭から順に探索すると質問文を示す「?」を検出できるので、「Hello, I heard you'd caught a cold. I hope you've recovered. How about you health now?」を第1の分割テキストとして出力する。次に、テキスト分割部850は、上記受信テキストの残存部分において話題の転換を示す表現である「well」を検出できるので、「Last weekend, I went on a picnic to the flower park. I could look at many hydrangeas. It's beautiful.」を第2の分割テキストとして出力する。最後に、テキスト分割部850は、上記受信テキストの残存部分である「Well, summer vacation is coming soon. I can't wait. I'm going to visit you. I'm looking forward to it.」を第3の分割テキストとして出力する。
上記第1の分割テキストに関する返信テキスト生成の様子を図22に示す。このように、第1乃至第3の分割テキストの各々に対し返信テキストの生成処理が行われる。図23は、上記第1乃至第3の分割テキストに対する返信テキストを統合した結果を示す。図23では、上記第1乃至第3の分割テキストが引用され、スレッド形式で返信テキストが統合されている。スレッド形式で返信テキストを表示すれば、個々の返信テキストを単純に統合する場合に比べて対話相手が返信内容を容易に把握することが可能となる。
以上説明したように、本実施形態に係る対話文生成装置は、受信テキストを一旦分割し、分割テキスト毎に返信テキストの生成を行っている。従って、本実施形態に係る対話文生成装置によれば、受信テキストに対してより適切な返信テキストを生成することができる。
(第5の実施形態)
図24に示すように、本発明の第5の実施形態に係る対話文生成装置は、上記図11に示す対話文生成装置において、待ち受け単語設定部405を待ち受け単語設定部605に置き換え、更に頻出単語記憶部640を設けている。以下の説明では、図24において図11と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
頻出単語記憶部640には、待ち受け単語設定部605によって待ち受け単語記憶部306に設定された待ち受け単語と、当該待ち受け単語が設定された回数(以下、単に設定回数と称する)とが対応付けて記憶されている。上記回数は、待ち受け単語が待ち受け単語記憶部306に設定される度に1インクリメントされる。尚、上記回数は、対話相手毎に個別に管理されてもよいし、共通でもよい。また、上記回数は所定期間毎にリセットされてもよいし、対話毎にリセットされてもよい。
待ち受け単語設定部605は、待ち受け単語設定部405と同様に受信テキストの形態素解析結果の中から選択した待ち受け単語と、当該待ち受け単語に関して関連単語データベース430から検索された関連単語とを待ち受け単語記憶部306に設定する。更に、待ち受け単語設定部605は、頻出単語記憶部640において上記設定回数の比較的多い単語(以下、単に頻出単語と称する)も待ち受け単語として待ち受け単語記憶部306に設定する。頻出単語は、例えば設定回数が多い順に選択された所定個数(例えば5個)の単語でもよいし、設定回数が閾値(例えば10回)以上の単語でもよい。尚、前述したように、待ち受け単語設定部605は、待ち受け単語を設定する際に、頻出単語記憶部640に記憶されている設定回数を適宜更新する。
以下、図25を用いて図24の対話文生成装置による返信テキストの生成処理の詳細を説明する。
まず、テキスト送受信部101によって受信された受信テキストは、音声合成部102によって音声データに変換され、スピーカ103を介して読み上げられる(ステップS701)。
また、上記受信テキストは、形態素解析部104によって形態素解析される(ステップS702)。次に、待ち受け単語設定部605は、ステップS702における形態素解析結果の中から孤立単語音声認識部311の待ち受け単語を選択し、当該待ち受け単語の関連単語を関連単語データベース430から検索する(ステップS703)。また、待ち受け単語設定部605は、頻出単語記憶部640から頻出単語を検索する(ステップS704)。次に、待ち受け単語設定部605は、ステップS702における形態素解析結果の中から選択した待ち受け単語と、ステップS703において検索した関連単語と、ステップS704において検索した頻出単語とを待ち受け単語記憶部306に設定する(ステップS705)。
ステップS701乃至S705の処理が終了すると、図24の対話文生成装置はユーザからの発話を待機する。尚、ステップS701の処理と、ステップS702乃至S705の処理とは、逆順に行われてもよいし、並行して行われてもよい。マイクロホン107を介してユーザから発話を受けると、音声認識部310は音声認識処理を行う(ステップS706)。音声認識部310は、ユーザからの発話が一定時間途絶えると音声認識処理を終了する。
ステップS706において、音声認識部310が音声認識に成功すれば処理はステップS710に進み、音声認識に失敗すれば処理はステップS708に進む(ステップS707)。
ステップS708において、音声認識部310は、所定のエラーメッセージを音声合成部102に入力する。上記エラーメッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。ユーザは、上記エラーメッセージが音声提示されることによって、音声認識部310による音声認識の失敗を確認できる。上記エラーメッセージに対してユーザから再認識が要求されれば処理はステップS706に戻り、そうでなければ音声認識部310は文章を認識できなかった旨のメッセージを音声合成部102及びスピーカ103を介してユーザに提示して処理は終了する(ステップS709)。
ステップS710において、音声認識部310は、ステップS707における音声認識結果と共に所定の承認要求メッセージを音声合成部102に入力する。上記音声認識結果及び承認要求メッセージは音声合成部102によって音声データに変換され、スピーカ103を介してユーザに提示される。上記承認要求メッセージに対してユーザから承認が得られれば処理はステップS712に進み、そうでなければ処理はステップS706に戻る(ステップS711)。ステップS712において、返信テキスト生成部309が、ステップS711においてユーザによって承認された音声認識結果に基づき返信テキストを生成し、処理は終了する。
図27は、図24の対話文生成装置の使用例を示す。受信テキストが「こんにちは、風邪などひいてないですか?」であって、頻出単語記憶部640には図26に示す内容が記憶されているものとする。待ち受け単語設定部605は、上記受信テキストの形態素解析結果の中から選択した待ち受け単語と、当該待ち受け単語に関し関連単語データベース430から検索された関連単語とに加え、頻出単語である「こんにちは」及び「元気」を待ち受け単語設定部306に設定するものとする。ここで、頻出単語は、設定回数が10回以上の単語を指す。ユーザの発話が「元気だよ」であれば、「元気」は前述したように待ち受け単語設定部306に設定されているため、孤立単語音声認識部311によって高確率に認識される。
図29は、図24の対話文生成装置の使用例を示す。受信テキストが「Hello, I heard you'd caught a cold. I hope you've recovered. How about your health now?」であって、頻出単語記憶部640には図28に示す内容が記憶されているものとする。待ち受け単語設定部605は、上記受信テキストの形態素解析結果の中から選択した待ち受け単語と、当該待ち受け単語に関し関連単語データベース430から検索された関連単語とに加え、頻出単語である「hello」及び「fine」を待ち受け単語設定部306に設定するものとする。ここで、頻出単語は、設定回数が10回以上の単語を指す。ユーザの発話が「I'm fine now.」であれば、「fine」は前述したように待ち受け単語設定部306に設定されているため、孤立単語音声認識部311によって高確率に認識される。
以上説明したように、本実施形態に係る対話文生成装置は、前述した待ち受け単語及び関連単語に加え、頻出単語も孤立単語音声認識処理における待ち受け単語としている。従って、本実施形態に係る対話文生成装置によれば、過去の対話において頻出した単語も高確率に認識されるため、ユーザの発話に基づき当該対話においてより適切な返信テキストを生成することが可能となる。
(第6の実施形態)
前述した第1乃至第5の実施形態に係る対話文生成装置は、音声合成部102及びスピーカ103を介して音声を提示することによりユーザに受信テキストを読み上げたり、音声認識結果を提示したり、エラーメッセージや承認要求メッセージ等の各種メッセージを通知したりしていた。本実施形態に係る対話文生成装置は、上記音声合成部102及びスピーカ103に代えてディスプレイを使用し、或いは、上記音声合成部102及びスピーカ103とディスプレイとを併用する。
具体的には、図30に示すように、ディスプレイには、受信テキストの内容が表示されたり、待ち受け単語記憶部106に設定されている優先単語または待ち受け単語記憶部306に設定されている待ち受け単語が認識しやすい単語として表示されたり、ユーザの発話の音声認識結果が表示されたりする。また、図31に示すように、ディスプレイには上記音声認識結果の承認要求メッセージ等の各種メッセージも表示される。また、本実施形態に係る対話文生成装置の使用言語が英語である場合には、ディスプレイの表示内容は例えば図32及び図33に示すものとなる。
以上説明したように、本実施形態に係る対話文生成装置は、情報提示手段としてディスプレイを使用している。従って、本実施形態に係る対話文生成装置によれば、受信テキストや当該受信テキストに対する発話の音声認識結果等を視覚的に確認できることによるメリットを享受することができる。
例えば、音声によって情報提示を行う場合、ユーザが提示内容を聞き間違えたり、聞き逃したりすると当該音声を再度提示するために時間を要し、ユーザが提示内容を再確認する際に煩雑となる問題がある。しかしながら、画面表示により情報提示を行えばユーザは余裕を持って提示内容を確認することが可能であるから、上記問題を回避できる。また、ユーザの発話の音声認識結果に実際の発話内容の同音異義語が誤って含まれている場合に、これを容易に発見することができる。また、受信テキストに画像ファイルが添付されていた場合に、ユーザは当該画像ファイルの内容を確認しながら発話することができるため、より充実した対話を実現することができる。また、ユーザは高確率に認識される単語を把握できるので、複数の類義語が存在する場合に実際に発話する単語を効率的に選択することが可能となる。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
第1の実施形態に係る対話文生成装置を示すブロック図。 図1の対話文生成装置よって行われる処理を示すフローチャート。 図2の返信テキストの生成処理を示すフローチャート。 図1の対話文生成装置によって受信される受信テキストの一例を示す図。 図4Aの受信テキストに対する形態素解析結果の一例を示す図。 図1の対話文生成装置の使用例を示す図。 図1の対話文生成装置によって受信される受信テキストの一例を示す図。 図6Aの受信テキストに対する形態素解析結果の一例を示す図。 図1の対話文生成装置の使用例を示す図。 第2の実施形態に係る対話文生成装置を示すブロック図。 図8の対話文生成装置の使用例を示す図。 図8の対話文生成装置の使用例を示す図。 第3の実施形態に係る対話文生成装置を示すブロック図。 図11の対話文生成装置によって行われる返信テキストの生成処理を示すフローチャート。 図11の関連単語データベースにおける関連単語の記述例を示す図。 図11の対話文生成装置の使用例を示す図。 図11の関連単語データベースにおける関連単語の記述例を示す図。 図11の対話文生成装置の使用例を示す図。 第4の実施形態に係る対話文生成装置によって行われる処理を示すフローチャート。 第4の実施形態に係る対話文生成装置によって受信される受信テキストの分割例を示す図。 第4の実施形態に係る対話文生成装置の使用例を示す図。 第4の実施形態に係る対話文生成装置によって生成される返信テキストの分割例を示す図。 第4の実施形態に係る対話文生成装置によって受信される受信テキストの一例を示す図。 第4の実施形態に係る対話文生成装置の使用例を示す図。 第4の実施形態に係る対話文生成装置によって生成される返信テキストの一例を示す図。 第5の実施形態に係る対話文生成装置を示す図。 図24の対話文生成装置によって行われる返信テキストの生成処理を示すフローチャート。 図24の頻出単語記憶部の記憶内容の一例を示す図。 図24の対話文生成装置の使用例を示す図。 図24の頻出単語記憶部の記憶内容の一例を示す図。 図24の対話文生成装置の使用例を示す図。 第6の実施形態に係る対話文生成装置の使用例を示す図。 第6の実施形態に係る対話文生成装置の使用例を示す図。 第6の実施形態に係る対話文生成装置の使用例を示す図。 第6の実施形態に係る対話文生成装置の使用例を示す図。
符号の説明
101・・・テキスト送受信部
102・・・音声合成部
103・・・スピーカ
104・・・形態素解析部
105・・・優先単語設定部
106・・・待ち受け単語記憶部
107・・・マイクロホン
108・・・連続音声認識部
109・・・返信テキスト生成部
305・・・待ち受け単語設定部
306・・・待ち受け単語記憶部
309・・・返信テキスト生成部
310・・・音声認識部
311・・・孤立単語音声認識部
312・・・連続音声認識部
320・・・待ち受け単語記憶部
405・・・待ち受け単語設定部
430・・・関連単語データベース
605・・・待ち受け単語設定部
640・・・頻出単語記憶部
850・・・テキスト分割部

Claims (9)

  1. 第1のテキストを受信し、前記第1のテキストの返信となる第2のテキストを送信する送受信部と、
    前記第1のテキストの内容をユーザに提示する提示部と、
    前記第1のテキストに対して形態素解析を行い、当該第1のテキストを構成する第1の単語及び当該第1の単語の言語情報を得る形態素解析部と、
    前記言語情報に基づき、前記第1のテキストの内容を特徴付ける第2の単語を前記第1の単語の中から選択する選択部と、
    前記第1のテキストの提示後における前記ユーザの発話に対して前記第2の単語を優先的に認識するように音声認識を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、
    前記音声認識結果に基づき前記第2のテキストを生成する生成部と
    を具備することを特徴とする対話文生成装置。
  2. 単語と、当該単語に関連する関連単語とが対応付けて記憶される記憶部を更に具備し、
    前記音声認識部は、前記発話に対して前記第2の単語及び当該第2の単語の関連単語を優先的に認識するように音声認識を行って、前記音声認識結果を生成することを特徴とする請求項1記載の対話文生成装置。
  3. 単語と、当該単語が過去に前記第2の単語として選択された回数とが対応付けて記憶される記憶部を更に具備し、
    前記音声認識部は、前記発話に対して前記第2の単語と、(a)前記回数が閾値以上の単語及び(b)前記回数の多い順に選択された所定個数の単語の少なくとも一方とを優先的に認識するように音声認識を行って、前記音声認識結果を生成することを特徴とする請求項1または請求項2記載の対話文生成装置。
  4. (a)改行の有無、(b)質問文の有無及び(c)話題の転換を示す表現の有無の少なくとも1つに基づき、前記第1のテキストを複数の第3のテキストに分割する分割部を更に具備し、
    前記提示部、前記形態素解析部、前記選択部及び前記音声認識部は、前記複数の第3のテキストの各々に対して提示、形態素解析、前記言語情報の取得、選択、および前記音声認識結果の生成を行い、前記生成部は前記第3のテキストの各々に関する前記音声認識結果を統合して前記第2のテキストを生成することを特徴とする請求項1乃至3のいずれか1項記載の対話文生成装置。
  5. 前記音声認識部は、
    前記第1のテキストの提示後における前記ユーザの発話に対して孤立単語音声認識を行って、前記発話に含まれる第2の単語を示す第1の音声認識結果を生成する第1の音声認識部と、
    前記発話に対して連続音声認識を行って、前記発話の内容を示す第2の音声認識結果を生成する第2の音声認識部と、を有し、
    前記生成部は、前記第1の音声認識結果及び前記第2の音声認識結果に基づき前記第2のテキストを生成すること
    を特徴とする請求項1乃至4のいずれか1項記載の対話文生成装置。
  6. 前記音声認識部は、連続音声認識を行うことを特徴とする請求項1乃至4のいずれか1項記載の対話文生成装置。
  7. 前記提示部は、前記第1のテキストを表示するディスプレイであることを特徴とする請求項1乃至6のいずれか1項記載の対話文生成装置。
  8. 前記提示部は、前記第2の単語を更に表示することを特徴とする請求項7記載の対話文生成装置。
  9. 第1のテキストを受信することと、
    前記第1のテキストの内容をユーザに提示することと、
    前記第1のテキストに対して形態素解析を行い、当該第1のテキストを構成する第1の単語及び当該第1の単語の言語情報を得ることと、
    前記言語情報に基づき、前記第1のテキストの内容を特徴付ける第2の単語を前記第1の単語の中から選択することと、
    前記第1のテキストの提示後における前記ユーザの発話に対して前記第2の単語を優先的に認識するように音声認識を行って、前記発話の内容を示す音声認識結果を生成することと、
    前記音声認識結果に基づき前記第1のテキストの返信となる第2のテキストを生成することと、
    前記第2のテキストを送信することと、
    を具備することを特徴とする対話文生成方法。
JP2008211906A 2008-08-20 2008-08-20 対話文生成装置 Pending JP2010048953A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008211906A JP2010048953A (ja) 2008-08-20 2008-08-20 対話文生成装置
US12/544,430 US20100049500A1 (en) 2008-08-20 2009-08-20 Dialogue generation apparatus and dialogue generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008211906A JP2010048953A (ja) 2008-08-20 2008-08-20 対話文生成装置

Publications (1)

Publication Number Publication Date
JP2010048953A true JP2010048953A (ja) 2010-03-04

Family

ID=41697168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008211906A Pending JP2010048953A (ja) 2008-08-20 2008-08-20 対話文生成装置

Country Status (2)

Country Link
US (1) US20100049500A1 (ja)
JP (1) JP2010048953A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114633A (ja) * 2011-11-30 2013-06-10 Toshiba Corp 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2014098962A (ja) * 2012-11-13 2014-05-29 Sharp Corp 行動制御装置、行動制御方法、および制御プログラム
JP7492166B2 (ja) 2020-12-16 2024-05-29 日本電信電話株式会社 意見集約装置、意見集約方法、およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5049934B2 (ja) * 2008-09-22 2012-10-17 株式会社東芝 対話文生成装置及び方法
US8521526B1 (en) * 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US11017022B2 (en) * 2016-01-28 2021-05-25 Subply Solutions Ltd. Method and system for providing audio content
US11693900B2 (en) 2017-08-22 2023-07-04 Subply Solutions Ltd. Method and system for providing resegmented audio content
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03289854A (ja) * 1990-04-06 1991-12-19 Nippon Telegr & Teleph Corp <Ntt> 電子メールシステム
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
JP2002351791A (ja) * 2001-05-30 2002-12-06 Mitsubishi Electric Corp 電子メール通信装置、電子メール通信方法および電子メール通信プログラム
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2004145541A (ja) * 2002-10-23 2004-05-20 Inosu:Kk チャットシステム
JP2004233577A (ja) * 2003-01-29 2004-08-19 Canon Inc 音声認識辞書作成方法
JP2006172110A (ja) * 2004-12-15 2006-06-29 Nec Corp 応答データ出力装置、応答データ出力方法およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03289854A (ja) * 1990-04-06 1991-12-19 Nippon Telegr & Teleph Corp <Ntt> 電子メールシステム
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
JP2002351791A (ja) * 2001-05-30 2002-12-06 Mitsubishi Electric Corp 電子メール通信装置、電子メール通信方法および電子メール通信プログラム
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2004145541A (ja) * 2002-10-23 2004-05-20 Inosu:Kk チャットシステム
JP2004233577A (ja) * 2003-01-29 2004-08-19 Canon Inc 音声認識辞書作成方法
JP2006172110A (ja) * 2004-12-15 2006-06-29 Nec Corp 応答データ出力装置、応答データ出力方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114633A (ja) * 2011-11-30 2013-06-10 Toshiba Corp 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2014098962A (ja) * 2012-11-13 2014-05-29 Sharp Corp 行動制御装置、行動制御方法、および制御プログラム
JP7492166B2 (ja) 2020-12-16 2024-05-29 日本電信電話株式会社 意見集約装置、意見集約方法、およびプログラム

Also Published As

Publication number Publication date
US20100049500A1 (en) 2010-02-25

Similar Documents

Publication Publication Date Title
JP2010048953A (ja) 対話文生成装置
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10917758B1 (en) Voice-based messaging
EP2609588B1 (en) Speech recognition using language modelling
JP4028375B2 (ja) 言語に無関係な音声ベースのサーチ・システム
US8126714B2 (en) Voice search device
JP3454897B2 (ja) 音声対話システム
US11093110B1 (en) Messaging feedback mechanism
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JPWO2015151157A1 (ja) 意図理解装置および方法
US11532301B1 (en) Natural language processing
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP5073024B2 (ja) 音声対話装置
US10504520B1 (en) Voice-controlled communication requests and responses
JP2000200273A (ja) 発話意図認識装置
JP2006189730A (ja) 音声対話方法および音声対話装置
US11626107B1 (en) Natural language processing
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
JP5158022B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
US10854196B1 (en) Functional prerequisites and acknowledgments
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP2003099089A (ja) 音声認識・合成装置および方法
US11393451B1 (en) Linked content in voice user interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828