JP2006172110A - 応答データ出力装置、応答データ出力方法およびプログラム - Google Patents

応答データ出力装置、応答データ出力方法およびプログラム Download PDF

Info

Publication number
JP2006172110A
JP2006172110A JP2004363225A JP2004363225A JP2006172110A JP 2006172110 A JP2006172110 A JP 2006172110A JP 2004363225 A JP2004363225 A JP 2004363225A JP 2004363225 A JP2004363225 A JP 2004363225A JP 2006172110 A JP2006172110 A JP 2006172110A
Authority
JP
Japan
Prior art keywords
unit
voice
response
user
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004363225A
Other languages
English (en)
Inventor
Atsushi Wakao
淳 若尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004363225A priority Critical patent/JP2006172110A/ja
Publication of JP2006172110A publication Critical patent/JP2006172110A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】 テキストのみの入力データに対しても、その入力データに対する応答データを出力することが可能な応答データ出力装置を提供する。
【解決手段】 入力部2がテキストデータを入力すると、応答予測部5は、格納部1が格納している文末語を利用して、テキストデータ内の疑問文を推定する。音声合成部3は、そのテキストデータを読み上げる。音声認識部4は、音声合成部3の出力に応じて発せられたユーザーの音声を音声認識する。応答作成部6は、応答予測部5が推定した疑問文と音声認識部6の認識結果とに基づいて応答データを生成する。出力部7は、その応答データを出力する。
【選択図】 図1

Description

本発明は、応答データ出力装置、応答データ出力方法およびプログラムに関し、特には、入力データを音声で出力し、その音声出力に対するユーザーの応答を音声で受け付け、その受け付けた音声に基づいて応答データを生成し、その応答データを出力する応答データ出力装置、応答データ出力方法およびプログラムに関する。
特許文献1(特開平3−289854号公報)および特許文献2(特開2002−351791号公報)には、受信した電子メールを音声で出力し、その電子メールに対するユーザーの応答を音声で受け付け、その受け付けた音声に基づいて返信用電子メールを生成し、その返信用電子メールを出力する電子メール通信装置が記載されている。
図13は、特許文献1および特許文献2に記載された電子メール通信装置を示したブロック図である。
図13において、この電子メール通信装置は、メール送受信部10と、メール文解析部11と、音声合成部12と、音声認識部13と、メール作成部14とを含む。
次に、この電子メール通信装置の動作を説明する。
電子メールの送信者は、音声認識開始を示す特殊な文字列を電子メールに挿入し、その特殊な文字列を含む電子メールを、電子メール通信装置に送信する。
メール送受信部10は、電子メールを受信すると、その受信した電子メールを、メール文解析部11に送る。
メール文解析部11は、送信側が挿入した特殊な文字列を検出するまで、その電子メールを音声合成部12に出力する。音声合成部12は、メール文解析部11から出力された電子メールを音声に変換して出力する。なお、メール文解析部11は、その電子メールをメール作成部14にも出力する。
メール文解析部11は、音声認識開始を示す特殊な文字を検出すると、音声認識の開始を音声認識部13に指示する。この際、特許文献2では、メール文解析部11は、特殊な文字列中に記述された音声認識に関わる語彙データを音声認識部13に渡す。
音声認識部13は、メール文解析部11から音声認識の開始の指示をうけると、音声認識処理を開始する。音声認識部13は、音声認識した結果を、メール作成部14に出力する。
メール作成部12は、メール文解析部11から出力された受信メールと音声認識部13から出力された音声認識結果とに基づいて返信メールを作成する。メール作成部12は、その返信メールをメール送受信部10に送る。メール送受信部10は、返信メールを送信元に送信する。
特開平3−289854号公報 特開2002−351791号公報
従来の電子メール通信装置は、受信した電子メールに音声認識用の特殊な文字列が含まれていないと、返信メールを作成できない。このため、送信側は、例えば、電子メール通信装置に対する入力データ(電子メール)として、一般のテキストを使用できなかった。
本発明の目的は、テキストだけの入力データに対しても、その入力データに対する応答データを出力することが可能な応答データ出力装置、応答データ出力方法およびプログラムを提供することである。
上記の目的を達成するために、本発明の応答データ出力装置は、疑問文の文末に用いられる文末語を格納する格納部と、テキストデータを受け付ける入力部と、前記入力部が受け付けたテキストデータに応じた音声を出力する音声出力部と、ユーザーが発する音声を入力し、その入力された音声を認識する音声認識部と、前記入力部が受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定部と、前記推定部が推定した疑問文と、前記音声認識部の認識結果と、に基づいて応答データを生成する生成部と、前記生成部が生成した応答データを出力する出力部とを含む。
また、本発明の応答データ出力方法は、疑問文の文末に用いられる文末語を格納する格納部を含む応答データ出力装置が行う応答データ出力方法であって、テキストデータを受け付ける入力ステップと、前記受け付けたテキストデータに応じた音声を出力する音声出力ステップと、ユーザーが発する音声を入力し、その入力された音声を認識する音声認識ステップと、前記受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定ステップと、前記推定した疑問文と、前記音声認識結果と、に基づいて応答データを生成する生成ステップと、前記応答データを出力する出力ステップとを含む。
上記の発明によれば、テキストデータが入力されると、テキストデータ内の疑問文が文末語に基づいて推定され、その推定された疑問文と音声認識結果とに基づいて応答データが生成される。このため、特殊な文字列を含まないテキストに対しても、その入力データに対する応答データを出力することが可能になる。
また、前記推定した疑問文に対するユーザーの応答が推定され、その推定されたユーザーの応答に基づいてユーザーの音声が認識されることが望ましい。
上記の発明によれば、音声認識の精度が向上する。
前記推定部は、前記推定した疑問文を前記音声出力部が出力すると前記音声出力部の出力が停止するように前記音声出力部を制御することが望ましい。
上記の発明によれば、疑問文に対する応答をユーザーに促すことが可能になる。
前記音声認識部は、前記ユーザーの音声を検出する音声検出部と、前記音声検出部が検出したユーザーの音声を認識する音声識別部と、を含み、前記推定部は、前記音声検出部が前記ユーザーの音声を検出すると、前記音声出力部が既に出力した音声に応じたテキストデータから前記文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定することが望ましい。
上記の発明によれば、ユーザーの応答に対応する疑問文は、ユーザーの応答の直前に存在する可能性が高いため、ユーザーの応答に対応する疑問文を高い精度で推定することが可能になる。
前記音声出力部は、前記音声検出部が前記ユーザーの音声を検出すると、出力を中断することが望ましい。
上記の発明によれば、ユーザーの音声と音声出力部の出力との重なりを少なくでき、音声識別部の認識精度を向上することが可能になる。
前記入力部が受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推測し、その推測結果に基づいて前記音声出力部を制御する応答予測部をさらに含むことが望ましい。
上記の発明によれば、ユーザーに応答位置を示唆することが可能になる。
前記応答予測部は、前記推測した疑問文を前記音声出力部が出力すると前記音声出力部の出力が一時的に停止するように前記音声出力部を制御することが望ましい。
上記の発明によれば、疑問文に対する応答をユーザーに促すことが可能になる。
前記応答予測部は、前記推測した疑問文に対するユーザーの応答を予測し、前記音声検出部は、前記応答予測部が予測した応答と類似する音声を検出することが望ましい。
上記の発明によれば、音声検出の雑音等による誤動作を防ぐことができる。
また、本発明のプログラムは、疑問文の文末に用いられる文末語を格納する格納部と接続するコンピュータに応答データ出力処理を実行させるプログラムであって、テキストデータを受け付ける入力処理と、前記受け付けたテキストデータに応じた音声を出力する音声出力処理と、ユーザーが発する音声を入力しその入力された音声を認識する音声認識処理と、前記受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定処理と、前記推定した疑問文と、前記音声認識結果と、に基づいて応答データを生成する生成処理と、前記応答データを出力する出力処理と、を含む応答データ出力処理を前記コンピュータに実行させる。
上記の発明によれば、上記応答データ出力方法をコンピュータに実行させることが可能になる。
本発明によれば、テキストデータが入力されると、テキストデータ内の疑問文が文末語に基づいて推定され、その推定された疑問文と音声認識結果とに基づいて応答データが生成される。このため、特殊な文字列を含まないテキストに対しても、その入力データに対する応答データを出力することが可能になる。
以下、本発明の実施例について図面を参照して説明する。
図1は、本発明の一実施例(第一の実施形態)の応答データ出力装置を示したブロック図である。
図1において、応答データ出力装置は、格納部1と、入力部2と、音声合成部3と、音声認識部4と、応答予測部(推定部)5と、応答作成部(生成部)6と、出力部7とを含む。音声認識部4は、音声検出部4Aと、音声識別部4Bとを含む。
格納部1は、メモリであり、疑問文の文末に用いられる文末語を格納する。疑問文の文末に用いられる文末語は、例えば、終助詞「か」または「?」である。なお、疑問文の文末に用いられる文末語は、終助詞「か」または「?」に限るものではなく適宜変更可能である。
入力部2は、テキストデータを受け付ける。入力部2は、例えば、テキストで記載された電子メールを受け付ける。
音声合成部3は、音声出力部の一例である。音声合成部3は、入力部2が受け付けたテキストデータに応じた音声を出力する。具体的には、音声合成部3は、入力部2が受け付けたテキストデータを、応答予測部5を介して受け付け、その受け付けたテキストデータを読み上げる。
音声認識部4は、ユーザーが発する音声を入力し、その入力された音声を認識する。具体的には、音声検出部4Aが、ユーザーの音声を検出し、音声認識部4Bが、音声検出部4Aが検出したユーザーの音声を認識する。このため、音声認識部4は、音声合成部3が出力した音声に応じてユーザーが発する音声(応答)を認識することが可能になる。
応答予測部5は、推定部の一例である。応答予測部5は、入力部2が受け付けたテキストデータから格納部1が格納する文末語を検出し、その検出結果に基づいて、そのテキストデータに含まれる疑問文を推定する。
また、応答予測部5は、その推定した疑問文を音声合成部3が出力すると音声合成部3の出力が停止するように、音声合成部3を制御する。
また、応答予測部5は、その推定した疑問文に対するユーザーの応答を推定する。応答予測部5は、その推定したユーザーの応答を音声認識部4(具体的には、音声識別部4B)に出力する。音声認識部4(具体的には、音声識別部4B)は、応答予測部5が推定したユーザーの応答に基づいてユーザーの音声を認識する。
応答作成部6は、生成部の一例である。応答作成部6は、応答予測部5が推定した疑問文と、音声認識部4の認識結果とに基づいて応答データを生成する。
出力部7は、応答作成部6が生成した応答データを外部に出力する。
次に、第一の実施形態の動作を説明する。
入力部2は、外部からテキスト(デキストデータ)を含む電子メール等の入力データを受け取る。入力部2は、入力データを受け取ると、その入力データからテキストを抽出し、その抽出したテキストを応答予測部5に渡す。
応答予測部5は、入力部2からテキストを受け取ると、その受け取ったテキストを格納部1が格納している文末語を用いて解析して、そのテキスト文の中から疑問文を推定し、ユーザーが応答するであろうと思われる位置を予測する。
応答予測部5は、例えば、テキスト中に、格納部1が格納している疑問文末を示す文末語(例えは、記号「?」または終助詞「か」)があれば、その文末語を含む文は疑問文であり、その文末語の次にユーザーからの応答入力がある、という推測手順で、ユーザーが応答するであろうと思われるテキスト中の位置を予測する。
次に、応答予測部5は、ユーザーの応答があると予測した位置で、どのような内容の応答があるかを予測する。
応答予測部5は、例えば、ユーザーの応答が予測された位置の直前の文中(疑問文中)に、「何時に」、「何処で」等の特定の文節が存在する場合には、それぞれ時刻、場所を表す応答がくると判断し、また、その直前の文中(疑問文中)に、その特定の文節が存在しない場合には、「はい」または「いいえ」等の応答がくると判断する。なお、応答予測部5は、他の予測方法を用いて、ユーザーの応答内容を予測してもよい。
応答予測部5は、入力部2から受け付けたテキストと、応答があると予測した位置を音声合成部3に渡す。
音声合成部3は、応答予測部5から、テキストおよびそのテキスト中の応答予測位置を受け取ると、そのテキストの音声合成を開始する。
音声合成部3は、音声合成が応答予測位置に達すると、音声合成を一時停止するとともに、音声合成停止を応答予測部5に通知する。なお、音声合成部3は、音声認識部6から認識終了を通知された際に、音声合成の一時停止を解除する。
応答予測部5は、音声合成部3から音声合成停止の通知を受け付けると、音声認識部4(具体的には、音声識別部4B)に、予測した応答内容を渡すとともに、音声認識処理の開始を指示する。
また、応答予測部5は、音声合成部3から音声合成停止の通知を受け付けると、入力部2から受け付けたテキスト(推定した疑問文を含む)、予測した応答位置および予測した応答内容を、応答作成部6に渡す。
音声認識部4は、応答予測部5から音声認識処理の開始指示を受け付けると、音声認識処理を開始して、ユーザーからの音声入力を待つ。また、音声認識部4(具体的には、音声識別部4B)は、応答予測部5から応答予測内容を受け取ると、その応答予測内容を音声認識処理に反映する。
音声認識部4(具体的には、音声識別部4B)は、例えば、応答予測内容が「はい」または「いいえ」であった場合、音声認識処理時の音声認識対象語彙を「はい」と「いいえ」に制限する。なお、音声識別部4Bは、他の反映方法を用いて、応答予測内容を音声認識処理に反映してもよい。
音声識別部4Bは、音声合成部3が出力した音声に応じてユーザーが発する音声を認識する。
音声識別部4Bは、音声認識処理の終了後、その音声認識結果を応答作成部6に渡すとともに、認識終了を音声合成部3に通達して音声合成処理の再開を促す。
応答作成部6は、音声認識部4から音声認識結果を受け取り、また、応答予測部5から入力テキスト、応答予測位置および応答予測内容を受け取る。応答作成部6は、これらを参照して応答結果(応答データ)を作成する。
応答作成部6は、例えば、音声認識結果が「はい」で、応答予測位置の直前の入力テキストが疑問文「会議に出席できますか?」の場合、疑問文を肯定文に変換して「会議に出席できます」を応答結果とする。無論、応答作成部6は、入力テキストをそのまま引用して、応答予測位置に音声認識結果をそのまま挿入する等の他の作成方法を用いて、応答結果を作成してもよい。
応答作成部6は、その作成した応答結果を出力部7に渡す。出力部7は、その応答結果を外部に出力する。
図2は、第一の実施形態の動作を説明するためのフローチャートである。以下、図2を参照して第一の実施形態の動作を説明する。
まず、入力部2にデータが入力されると、入力部2はその入力したデータからテキスト部分を抽出し、その抽出したテキストを応答予測部5に送る(ステップS21)。
次に、応答予測部5は、格納部1が格納する文末語を用いてテキスト中の疑問文を推定し、その疑問文に対して応答がなされると予想される応答位置およびその応答内容を予測する。応答予測部5は、入力したテキストと予測した応答位置を音声合成部3に出力する(ステップS22)。
次に、音声合成部3は、テキストの先頭から最初に予測される応答位置までを音声合成して出力する。音声合成部3は、音声合成が応答予測位置に達すると、音声合成を一時停止するとともに、音声合成停止を応答予測部5に通知する。
応答予測部5は、音声合成部3から音声合成停止の通知を受け付けると、音声識別部4Bに、予測した応答内容を渡すとともに、音声認識動作の開始を指示する、また、応答予測部5は、音声合成停止の通知を受け付けると、入力部2から受け付けたテキスト(推定した疑問文を含む)、予測した応答位置および予測した応答内容を、応答作成部6に渡す(ステップS23)。
次に、音声認識部4は、応答予測内容を参照して、ユーザーからの音声入力を認識する(ステップS24)。
ステップS24終了後、音声合成部3は、まだ、合成音声として出力していないテキストが残っているか判断する(ステップS25)合成音声として出力していないテキストが残っていれば、ステップS23が実行され、合成音声として出力していないテキストが残っていなければ、ステップS26が実行される。
応答作成部6は、音声識別部4Bの音声認識結果と、応答予測部5から受け付けたテキスト(推定した疑問文を含む)、予測した応答位置および予測した応答内容に基づいて応答結果(応答データ)を作成する(ステップS26)。
最後に、出力部7は、応答作成部6が作成した応答結果を出力する(ステップS27)。
本実施の形態(第一の実施形態)によれば、テキストデータが入力されると、応答予測部5は、そのテキストデータ内の疑問文を文末語に基づいて推定し、応答作成部6は、その推定された疑問文および音声認識部4の音声認識結果に基づいて応答データを生成する。このため、特殊な文字列を含まないテキストに対しても、その入力データに対する応答データを出力することが可能になる。
また、応答予測部5は、その推定した疑問文に対するユーザーの応答を推定し、音声認識部4は、応答予測部5が推定したユーザーの応答に基づいて、ユーザーの音声を認識する。このため、音声認識の精度が向上する。
また、応答予測部5は、その推定した疑問文を音声合成部3が出力すると音声合成部3の出力が停止するように音声合成部3を制御する。このため、疑問文に対する応答をユーザーに促すことが可能になる。
次に、本発明の他の実施例(第二の実施形態)を説明する。
図3は、第二の実施形態の応答データ出力装置を示したブロック図である。なお、図3において、図1に示したものと同一のものには同一符号を付してある。また、図1に示したものと同一のものの説明は、基本的に省略する。
図3において、応答データ出力装置は、格納部1と、入力部2aと、音声合成部3aと、音声認識部4aと、応答作成部6と、出力部7と、応答推定部(推定部)8を含む。音声認識部4aは、音声検出部4aAと、音声識別部4Bとを含む。
入力部2aは、テキストで記載された電子メール等のテキストデータを受け付け、その受け付けたテキストデータを、音声合成部3aおよび応答推定部8に出力する。
音声合成部3aは、音声出力部の一例であり、入力部2aが受け付けたテキストデータに応じた音声を出力する。
音声検出部4aAは、ユーザーの音声を検出する。音声検出部4aAは、ユーザーの音声を検出すると、音声検出通知を音声合成部3aに出力する。また、音声検出部4aAは、例えば、音声入力のパワーを測定して、その測定したパワーが閾値以上であれば、ユーザーの音声を検出したと判断する。無論、音声検出部4aAは、他の検出方法でユーザーの音声を検出してもよい。
また、音声検出部4aAは、その検出したユーザーの音声を音声識別部4Bに出力する。音声識別部4Bは、そのユーザーの音声を一時的にバッファ(不図示)に格納する。なお、このバッファは、音声識別部4Bに含まれる。
音声合成部3aは、音声検出通知を受け付けると、音声合成出力を停止し、また、その停止位置を応答推定部8に渡す。
応答推定部8は、推定部の一例であり、入力部2aから受け付けたテキストの中から、音声合成部3aから渡された停止位置より前の部分のテキストを抽出する。応答推定部8は、その抽出したテキストから格納部1が格納する文末語を検出し、その検出結果に基づいて、そのテキストに含まれる疑問文を推定する。応答推定部8は、その推定した疑問文を応答作成部6に出力する。
また、応答推定部8は、その推定した疑問文に対するユーザーの応答を推定する。応答推定部8は、その推定したユーザーの応答を音声識別部4Bに出力する。なお、応答推定部8は、音声合成部3aから停止位置を受け付けると、音声識別部4Bに音声認識処理の開始を指示する。
音声識別部4Bは、音声認識処理の開始指示を受け付けると、バッファに格納したユーザーの音声を応答推定部8が推定したユーザーの応答に基づいて認識する。
応答作成部6は、応答推定部8が推定した疑問文と、音声認識部4の認識結果とに基づいて応答データを生成する。
次に、第二の実施形態の動作を説明する。
入力部2aは、外部からテキスト(デキストデータ)を含む電子メール等の入力データを受け取る。入力部2aは、入力データを受け取ると、その入力データからテキストを抽出し、その抽出したテキストを音声合成部3aおよび応答推定部8に渡す。
音声合成部3aは、入力部2aからテキストを受け取ると、そのテキストの音声合成を開始する。
ユーザーが音声合成部3aの音声出力に対して音声で応答すると、音声検出部4aAは、そのユーザーの音声入力を検出する。
音声検出部4aAは、ユーザーの音声入力を検出すると、音声検出通知を音声合成部3aに出力する。また、音声検出部4aAは、その検出したユーザーの音声を音声識別部4Bに出力する。音声識別部4Bは、そのユーザーの音声を一時的にバッファに格納する。
音声合成部3aは、音声検出部4aAから音声検出通知を受け付けると、音声合成出力を停止し、また、その停止位置を応答推定部8に渡す。
応答推定部8は、入力部2aから受け付けたテキストの中から、音声合成部3aから渡された停止位置より前の部分のテキストを抽出し、その抽出したテキストを格納部1が格納している文末語を用いて解析して、その抽出したテキストで記載された文の中から疑問文を推定し、ユーザーが応答するであろうと思われる位置を予測する。
応答推定部8は、例えば、その抽出したテキストの中で、合成音停止位置にもっとも近い文末をユーザー応答位置(疑問文の文末)と推定する。無論、応答推定部8は、他の推定方法でユーザー応答位置を推定してもよい。
次に、応答推定部8は、ユーザーの応答があると予測した位置で、どのような内容の応答があるかを予測する。
応答推定部8は、例えば、ユーザーの応答が予測された位置の直前の文中に、「何時に」、「何処で」等の特定の文節が存在する場合には、それぞれ時刻、場所を表す応答がくると判断し、また、その直前の文中に、その特定の文節が存在しない場合には、「はい」または「いいえ」等の応答がくると判断する。なお、応答推定部8は、他の予測方法を用いて、ユーザーの応答内容を予測してもよい。
応答推定部8は、入力テキスト(推定した疑問文を含む。)、応答推定位置および応答推定内容を応答作成部6に出力する。
また、応答推定部8は、その推定したユーザーの応答を音声識別部4Bに出力する。また、応答推定部8は、音声合成部3aから停止位置を受け付けると、音声識別部4Bに音声認識処理の開始を指示する。
音声識別部4Bは、音声認識処理の開始指示を受け付けると、バッファに格納したユーザーの音声を応答推定部8が推定したユーザーの応答に基づいて認識する。
音声識別部4Bは、例えば、応答予測内容が「はい」または「いいえ」であった場合、音声認識処理時の音声認識対象語彙を「はい」と「いいえ」に制限する。なお、音声識別部4Bは、他の反映方法を用いて、応答予測内容を音声認識処理に反映してもよい。
音声識別部4Bは、音声認識処理の終了後、その音声認識結果を応答作成部6に渡すとともに、音声認識処理の終了を音声合成部3aに通達して音声合成処理の再開を促す。
音声合成部3aは、音声認識処理の終了を受け付けると、音声合成処理を再開する。この際、音声合成部3aがテキスト解析部を備えていれば、音声合成部3aは、テキストの音声合成の再開位置を、停止位置直前の文頭等といった文法上の切れ目、または、意味内容の切れ目にすることが可能になる。
応答作成部6は、音声識別部4Bから音声認識結果を受け取り、また、応答推定部8から入力テキスト(推定した疑問文を含む。)、応答推定位置および応答推定内容を受け取る。応答作成部6は、これらを参照して応答結果(応答データ)を作成する。応答作成部6は、その作成した応答結果を出力部7に渡す。出力部7は、その応答結果を外部に出力する。
図4は、第二の実施形態の動作を説明するためのフローチャートである。以下、図4を参照して第二の実施形態の動作を説明する。
まず、入力部2aにデータが入力されると、入力部2aはその入力したデータからテキスト部分を抽出し、その抽出したテキストを音声合成部3aおよび応答推定部8に送る(ステップS41)。
次に、音声合成部3aは、テキストの音声合成を開始する(ステップS42)。
次に、音声検出部4aAがユーザーからの音声入力を検出すると、音声合成部3aは、音声合成を停止しその停止位置を応答推定部8に出力する。応答推定部8は、停止位置を受け取ると、ステップS44を実行する。一方、音声検出部4aAがユーザーからの音声入力を検出しない場合は、音声合成部3aは、ステップS45を実行する(ステップS43)。
ステップS44では、応答推定部8は、入力部2aから受け取ったテキストおよび音声検出時の音声合成停止位置から、ユーザーの応答位置およびその応答内容を推定する。
次に、音声認識部6は、応答推定部8の応答推定内容を参照して、検出したユーザー音声を認識する(ステップS46)。
次に、音声合成部3aは、まだ、合成音声として出力していないテキストが残っているか判断する(ステップS45)。合成音声として出力していないテキストが残っていれば、ステップS42が実行され、合成音声として出力していないテキストが残っていなければステップS47が実行される。
ステップS47では、応答作成部6は、音声識別部4Bの音声認識結果と、応答推定部8から受け付けたテキスト(推定した疑問文を含む)、予測した応答位置および予測した応答内容に基づいて応答結果(応答データ)を作成する。
最後に、出力部7は、応答作成部6が作成した応答結果を出力する(ステップS48)。
本実施の形態(第二の実施形態)によれば、応答推定部8は、音声検出部4aAがユーザーの音声を検出すると、音声合成部3aが既に出力した音声に応じたテキストデータから文末語を検出し、その検出結果に基づいて、テキストデータに含まれる疑問文を推定する。ユーザーの応答に対応する疑問文は、ユーザーの応答の直前に存在する可能性が高いため、ユーザーの応答に対応する疑問文を高い精度で推定することが可能になる。
また、音声合成部3aは、音声検出部4aAがユーザーの音声を検出すると、音声出力を中断する。このため、ユーザーの音声と音声合成部3aの出力との重なりを少なくでき、音声識別部4Bの認識精度を向上することが可能になる。
次に、本発明のさらに他の実施例(第三の実施形態)を説明する。
図5は、第三の実施形態の応答データ出力装置を示したブロック図である。なお、図5において、図3に示したものと同一のものには同一符号を付してある。また、図3に示したものと同一のものの説明は、基本的に省略する。
図5に示した応答データ出力装置は、図3に示した応答データ出力装置に応答予測部9が付加されたものであり、応答予測部9の出力に基づいて音声合成部3bの出力が制御される。
図5において、応答データ出力装置は、格納部1と、入力部2bと、音声合成部3bと、音声認識部4aと、応答作成部6と、出力部7と、応答推定部8と、応答予測部9とを含む。
入力部2bは、テキストで記載された電子メール等のテキストデータを受け付け、その受け付けたテキストデータを、応答推定部8および応答予測部9に出力する。
応答予測部9は、入力部2bが受け付けたテキストデータから格納部1が格納する文末語を検出し、その検出結果に基づいて、そのテキストデータに含まれる疑問文を推測し、その推測結果に基づいて音声合成部3bの出力を制御する。
音声合成部3bは、音声出力部の一例であり、入力部2aが受け付けたテキストデータに応じた音声を出力する。具体的には、音声合成部3bは、応答予測部9が出力するテキストに応じて音声を出力する。
次に、第三の実施形態の動作を説明する。なお、以下では、第二の実施形態の動作と異なる動作を中心に説明する。
入力部2bは、外部からテキスト(デキストデータ)を含む電子メール等の入力データを受け取る。入力部2bは、入力データを受け取ると、その入力データからテキストを抽出し、その抽出したテキストを応答推定部8および応答予測部9に渡す。
応答予測部9は、入力部2bからテキストを受け付けると、その受け付けたテキストを格納部1が格納している文末語を用いて解析して、そのテキストで記載された文の中から疑問文を推定し、ユーザーが応答するであろうと思われる位置を予測する。応答予測部9は、例えば、図1に示した応答予測部5と同様の推定手法で、疑問文を推定し、ユーザーが応答するであろうと思われる位置を予測する。
応答予測部9は、入力部2bから受け付けたテキストと、応答があると予測した位置を音声合成部3bに渡す。
音声合成部3bは、応答予測部5から、テキストおよびそのテキスト中の応答予測位置を受け取ると、そのテキストの音声合成を開始する。
音声合成部3bは、テキストの音声合成が応答予測位置に達すると、ユーザーの音声入力を促すために、合成音の一時停止または所定の音を発する等の動作を行う。
また、音声合成部3bは、音声検出部4aAから音声検出通知を受け付けると、音声合成出力を停止し、また、その停止位置を応答推定部8に渡す。以下、図5に示した応答データ出力装置は、図3に示した応答データ出力装置と同様に動作する。
図6は、第三の実施形態の動作を説明するためのフローチャートである。以下、図6を参照して第三の実施形態の動作を説明する。なお、図6において、図4に示した処理と同様の処理には同一符号を付してある。以下では、図4に示した処理と同様の処理は、基本的に説明を省略する。
まず、入力部2bにデータが入力されると、入力部2bはその入力したデータからテキスト部分を抽出し、その抽出したテキストを応答予測部9および応答推定部8に送る(ステップS61)。
次に、応答予測部9は、テキスト中の応答位置を予測する(ステップS62)。
次に、音声合成部3bは、テキストの音声合成を開始する。この際、音声合成部3bは、応答予測部9の応答予測位置で出力を一時停止する等、ユーザーの発声を促すように音声合成する(ステップS63)。以下、図4と同様の処理が行われる。
本実施の形態(第三の実施形態)によれば、応答予測部9は、入力部2bが受け付けたテキストデータから格納部1が格納する文末語を検出し、その検出結果に基づいて、そのテキストデータに含まれる疑問文を推測し、その推測結果に基づいて音声合成部3bを制御する。このため、ユーザーに応答位置を示唆することが可能になる。
また、応答予測部9は、その推測した疑問文を音声合成部3bが出力すると音声合成部3bの出力が一時的に停止するように音声合成部3bを制御する。このため、疑問文に対する応答をユーザーに促すことが可能になる。
次に、本発明のさらに他の実施例(第四の実施形態)を説明する。
図7は、第四の実施形態の応答データ出力装置を示したブロック図である。なお、図7において、図5に示したものと同一のものには同一符号を付してある。また、図5に示したものと同一のものの説明は、基本的に省略する。
図7に示した応答データ出力装置は、図5の応答予測部9の代わりに応答予測部9aが用いられ、図5の音声検出部4aAの代わりに音声検出部4bAが用いられる。
図7において、応答予測部9aは、図5の応答予測部9と同様の機能を有する。具体的には、応答予測部9aは、入力部2bが受け付けたテキストデータから格納部1が格納する文末語を検出し、その検出結果に基づいて、そのテキストデータに含まれる疑問文を推測し、その推測結果に基づいて音声合成部3bの出力を制御する。
応答予測部9aは、さらに、その推定した疑問文に対するユーザーの応答を推定する。応答予測部9aは、その推定したユーザーの応答を音声検出部4bAに出力する。
音声検出部4bAは、応答予測部9aが予測した応答と類似する音声を検出する。
次に、第四の実施形態の動作を説明する。以下では、第三の実施形態の動作と異なる動作を中心に説明する。なお、図6に示したフローチャートは、第四の実施形態の動作も示す。
応答予測部9aは、入力部2bからテキストを受け付けると、その受け付けたテキストを格納部1が格納している文末語を用いて解析して、そのテキストで記載された文の中から疑問文を推定し、ユーザーが応答するであろうと思われる位置を予測する。応答予測部9は、入力部2bから受け付けたテキストと、応答があると予測した位置を音声合成部3bに渡す。
さらに、応答予測部9aは、その推定した疑問文に対するユーザーの応答を推定する。なお、応答予測部9aは、応答推定部8と同様の手法でユーザーの応答を推定することが望ましい。応答予測部9aは、その推定したユーザーの応答を音声検出部4bAに出力する。
音声検出部4bAは、例えば、入力するユーザーの音声のパワーを測定して、その測定値が閾値以上であれば、その入力音声を音声入力候補とする。続いて、音声検出部4bAは、その音声入力候補と応答予測部3からの応答予測内容とを比較し、それらの類似度がある閾値以上であれば、音声入力があったと判断する。なお、音声検出部4bAは、他の検出方法で、ユーザーの音声を検出してもよい。
本実施の形態(第四の実施形態)によれば、応答予測部9aは、推測した疑問文に対するユーザーの応答を予測し、音声検出部4bAは、応答予測部9aが予測した応答と類似する音声を検出する。このため、音声検出の雑音等による誤動作を防ぐことができる。
(実施例)
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
まず、図2を参照して、第一の実施形態の動作を説明する。
入力部2は、入力データとして図8に示すような電子メールを受信すると、その電子メールからテキスト部分である、「△△です」以下を抽出する(ステップS21)。
次に、応答予測部5は、その抽出されたテキスト部分を形態素解析により単語に分割し、品詞と元の文番号(受信した文の番号)とを付与する(図9参照)。
次に、応答予測部5は、分割した単語から、終助詞「か」を探す。
図9に示した例では、終助詞「か」は11番目の単語として存在する。この11番目の単語の、元の文番号は2であるため、応答予測部5は、2番目の文「明日10時の会議に出席できますか?」が疑問文であると推定し、この文の後ろでユーザーの音声による応答があると予測する。
次に、応答予測部5は、2番目の文を構成している単語の中から、「何」「何処」等の時間、数量、場所等を表す単語を検索する。
図9に示した例では、それらの単語が存在しないので、応答予測部5は、2番目の文に対する応答は、否定と肯定の何れかであると判断し、ユーザーの応答内容は、「はい」または「いいえ」であると予測する(ステップS22)。
次に、音声合成部3は、文の先頭から応答を予測した文「明日10時の会議に出席できますか?」までを音声合成する(ステップS23)。
音声合成部3が応答予測位置までの音声合成を終了すると、音声認識部4は、ユーザーの発声を待って音声認識する。
具体的には、音声認識部4(音声識別部4B)は、ユーザーの発声した音声と、予めシステム(音声識別部4B)が所持する単語HMM(Hidden Marcov Model)との類似度を比較し、類似度の最も高い単語を音声認識結果とする。
ここでは、応答内容が「はい」または「いいえ」であると予測されているので、音声認識部4(音声識別部4B)は、「はい」および「いいえ」に対応する単語HMMの類似度を2倍にして比較する。
なお、文章末までの音声合成が終了しかつ文章末に応答が予測されていない場合は、音声認識部4は、音声認識動作を行わない(ステップS24)。
音声認識終了後、音声合成部3は、音声合成すべきテキストがまだ残っているか判定する。ここでは、「お返事、よろしくお願いします。」がまだ残っているので、音声合成部3は、引き続き音声合成を行う(ステップS25)。
全ての音声合成が終了後、応答作成部6は、返信メールを作成する。応答作成部6は、まず元テキストの先頭に引用を示す記号「>」を添付する。次に、応答作成部6は、応答を予測した位置に音声認識結果を挿入する。作成した返信メールを図10に示す(ステップS26)。
最後に、出力部7は、その作成さらた返信メールを送信する。(ステップS27)。
次に、図6を参照して、第四の実施形態の動作を説明する。なお、第四の実施形態には、部分的に、第二の実施形態および第三の実施形態が含まれる。
まず、入力部2bは、入力データとして図11に示すような電子メールを受信すると、その電子メールからテキスト部分である、「○○さんこんにちは」以下を抽出する。(ステップS61)。
次に、応答予測部9aは、その抽出されたテキスト部分を形態素解析により単語に分割し、品詞と元の文番号とを付与する(図12参照)。
次に、応答予測部9aは、分割した単語から、終助詞「か」を探す。
図12に示した例では、終助詞「か」の、元の文番号は3であるため、応答予測部9aは、3番目の文「以下の会議に出席できますか?」が疑問文であると推定し、この文の後ろでユーザーの音声による応答があると予測する。
次に、応答予測部9aは、3番目の文を構成している単語の中から、「何」「何処」等の時間、数量、場所等を表す単語を検索する。
図12に示した例では、それらの単語が存在しないので、応答予測部9aは、3番目の文に対する応答は、否定と肯定の何れかであると判断し、ユーザーの応答内容は、「はい」または「いいえ」であると予測する(ステップS62)。
次に、音声合成部3bは、文の先頭から終端までの音声合成を開始する。この際、音声合成部3bは、応答予測部9aによって応答が予測された位置では、ユーザーが喋りやすいように、通常の音声出力より1秒程度余分に無音声出力期間を設ける(ステップS63)。
音声合成部3bが音声合成している間、音声認識部4bは、ユーザーの音声の検出を行う。音声認識部4bは、雑音等による誤動作を防ぐために音声検出を以下の手順で行う。
第1に、音声認識部4bは、ある閾値(所定値)以上の大きさの音(ユーザーの音声)を検出した際、その音を入力音とする。なお、音声認識部4bは、音声合成によって音声応答の予測位置以降を読み上げている際には、その閾値を所定値より低くし、それ以外の際には閾値をその所定値より高くする。
第2に、音声認識部4bは、その入力音と応答予測部9aが予測した音声応答内容「はい」「いいえ」との類似度を比較する。それらの類似度がある閾値以上の場合は、音声認識部4bは、音声を検出したと判断する。
音声認識部4bは、上記のような方法で音声検出を行い、音声合成部3bは音声が検出されるまで音声合成を繰り返す(ステップS46)。
このような方法を用いることで、ユーザーは、例えば、日時、場所等の会議に必要な情報を聞いてから応答を入力することが可能となり、また、音声認識部4bは、雑音等による誤動作も防ぐことが可能になる。
音声合成が「以上」の直後まで流れたときに、音声認識部4bが音声を検出したとすると、応答推定部8は、まず、テキストの中から音声検出位置に最も近い文末を探す。
図11に示した例では、「場所:××会議室」がそれに相当するので、応答推定部8は、「場所:××会議室」を応答推定位置とする。
次に、応答推定部8は、「場所:××会議室」の文から、終助詞「か」を探す。この場合、終助詞「か」は存在しないので、応答推定部8は、「場所:××会議室」文だけでは疑問文を構成できないと判断する。
その場合、応答推定部8は、終助詞「か」の検索対象範囲を、既に音声出力済みのテキストへ広げる。このとき、応答推定部8は、出力して間もないテキスト文から最も時間的に前に出力したテキスト文へ、終助詞「か」の検索対象範囲を広げる。
応答推定部8は、「場所:××会議室」から終助詞「か」が見つかった文までの文章で疑問文章が構成されていると推定する。図11に示す例では、応答推定部8は、疑問文が「以下の」〜「××会議室」までの3文で構成されていると推定する。
次に、応答推定部8は、その推定した疑問文章から日時、場所および動作を現す重要語を抽出する。
図11に示す例では、応答推定部8は、「会議」「出席」「5月10日」「14時」「××会議室」を抽出する。例えば、応答推定部8は、重要単語辞書を予め格納しておき、形態素解析結果から重要単語を検索することで、重要語の抽出を行う。応答推定部8は、これら重要語を応答推定内容とする(ステップS44)。
次に、音声認識部4bは、音声認識をする。音声認識部4bは、ユーザーの発声した音声と、予めシステムが所持する単語HMMとの類似度を比較し、類似度の最も高い単語列を音声認識結果とする。ここでは、応答内容が「会議」「出席」「5月10日」「14時」「××会議室」であると推定されているので、音声認識部6は、「会議」「出席」「5月10日」「14時」「××会議室」に対応する単語HMMの類似度を2倍にして比較する(ステップS46)。
次に、音声合成部3bは、音声合成すべきテキストがまだ残っているか判定する。ここでは、「お返事よろしくお願いします。」がまだ残っているので、音声合成部3bは、引き続き音声合成を行う(ステップS45)。
全ての音声合成が終了後、応答作成部6は、返信メールを作成する。応答作成部6は、音声認識結果が「出席します」であった場合、これを仮返信メールとする。次に、応答作成部6は、先の応答推定内容のうち、仮返信メールに存在しない語を適切な助詞を補って追加する。なお、適切な助詞は、先の重要単語辞書に付加情報として所持されている。
ここでは、応答推定内容「会議」「出席」「5月10日」「14時」「××会議室」のうち、「出席」以外は存在しないので、応答作成部6は、それらを補って、「××会議室の5月10日14時の会議に出席します」とする(ステップS47)。このため、ユーザーが曖昧な発声をしても、明確な返信が可能である。
最後に、出力部7は、その作成された返信メールを送信する(ステップS48)。
上記各実施形態によれば、テキストデータが入力されると、テキストデータ内の疑問文が文末語に基づいて推定され、その推定された疑問文と音声認識結果とに基づいて応答データが生成される。このため、特殊な文字列を含まないテキストに対しても、その入力データに対する応答データを出力することが可能になる。
なお、格納部1を除く本応答データ出力装置は、メモリに記録されているプログラムを読み取り、その読み取ったプログラムを実行するコンピュータによって実現されてもよい。なお、このプログラムは、本応答データ出力装置が実行する応答データ出力方法をコンピュータに実行させる。
また、本発明は、音声を用いて返信を作成できる電子メール送受信装置や、音声をインターフェイスとするテレフォンショッピングといった用途にも適用可能である。
以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
例えば、入力部2、入力部2aまたは入力部2bが受け取るデータは、電子メールに限らず、テキストデータを含んでいればよい。入力部2、入力部2aまたは入力部2bが受け取るデータは、例えは、画像等を含むHTMLのように、テキストあるいは機械的にテキストに変換可能なコンテンツを含むデータでもよい。
本発明の第一の実施形態を示すブロック図である。 第一の実施形態の動作を説明するためのフローチャートである。 本発明の第二の実施形態を示すブロック図である。 第二の実施形態の動作を説明するためのフローチャートである。 本発明の第三の実施形態を示すブロック図である。 第三の実施形態の動作を説明するためのフローチャートである。 本発明の第四の実施形態を示すブロック図である。 本発明の動作の一例を説明するための図である。 本発明の動作の一例を説明するための図である。 本発明の動作の一例を説明するための図である。 本発明の動作の一例を説明するための図である。 本発明の動作の一例を説明するための図である。 従来例の構成を示すブロック図である。
符号の説明
1 格納部
2、2a、2b 入力部
3、3a、3b 音声合成部
4、4a、4b 音声認識部
4A、4aA、4bA 音声検出部
4B 音声識別部
5 応答予測部
6 応答作成部
7 出力部
8 応答推定部
9、9a 応答予測部

Claims (12)

  1. 疑問文の文末に用いられる文末語を格納する格納部と、
    テキストデータを受け付けるテキストデータ入力部と、
    前記入力部が受け付けたテキストデータに応じた音声を出力する音声出力部と、
    ユーザーが発する音声を入力し、その入力された音声を認識する音声認識部と、
    前記テキストデータ入力部が受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定部と、
    前記推定部が推定した疑問文と、前記音声認識部の認識結果と、に基づいて応答データを生成する生成部と、
    前記生成部が生成した応答データを出力する出力部と、を含む応答データ出力装置。
  2. 請求項1に記載の応答データ出力装置において、
    前記推定部は、前記推定した疑問文に対するユーザーの応答を推定し、
    前記音声認識部は、前記推定部が推定したユーザーの応答に基づいて前記ユーザーの音声を認識する、応答データ出力装置。
  3. 請求項1または2に記載の応答データ出力装置において、
    前記推定部は、前記推定した疑問文を前記音声出力部が出力すると前記音声出力部の出力が停止するように前記音声出力部を制御する、応答データ出力装置。
  4. 請求項1または2に記載の応答データ出力装置において、
    前記音声認識部は、前記ユーザーの音声を検出する音声検出部と、前記音声検出部が検出したユーザーの音声を認識する音声識別部と、を含み、
    前記推定部は、前記音声検出部が前記ユーザーの音声を検出すると、前記音声出力部が既に出力した音声に応じたテキストデータから前記文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する、応答データ出力装置。
  5. 請求項4に記載の応答データ出力装置において、
    前記音声出力部は、前記音声検出部が前記ユーザーの音声を検出すると、出力を中断する、応答データ出力装置。
  6. 請求項4または5に記載の応答データ出力装置において、
    前記入力部が受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推測し、その推測結果に基づいて前記音声出力部を制御する応答予測部をさらに含む応答データ出力装置。
  7. 請求項6に記載の応答データ出力装置において、
    前記応答予測部は、前記推測した疑問文を前記音声出力部が出力すると前記音声出力部の出力が一時的に停止するように前記音声出力部を制御する、応答データ出力装置。
  8. 請求項6または7に記載の応答データ出力装置において、
    前記応答予測部は、前記推測した疑問文に対するユーザーの応答を予測し、
    前記音声検出部は、前記応答予測部が予測した応答と類似する音声を検出する、応答データ出力装置。
  9. 疑問文の文末に用いられる文末語を格納する格納部を含む応答データ出力装置が行う応答データ出力方法であって、
    テキストデータを受け付ける入力ステップと、
    前記受け付けたテキストデータに応じた音声を出力する音声出力ステップと、
    ユーザーが発する音声を入力し、その入力された音声を認識する音声認識ステップと、
    前記受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定ステップと、
    前記推定した疑問文と、前記音声認識結果と、に基づいて応答データを生成する生成ステップと、
    前記応答データを出力する出力ステップと、を含む応答データ出力方法。
  10. 請求項9に記載の応答データ出力方法において、
    前記推定ステップは、前記推定した疑問文に対するユーザーの応答を推定し、
    前記音声認識ステップは、前記推定したユーザーの応答に基づいて前記ユーザーの音声を認識する、応答データ出力方法。
  11. 疑問文の文末に用いられる文末語を格納する格納部と接続するコンピュータに応答データ出力処理を実行させるプログラムであって、
    テキストデータを受け付ける入力処理と、
    前記受け付けたテキストデータに応じた音声を出力する音声出力処理と、
    ユーザーが発する音声を入力し、その入力された音声を認識する音声認識処理と、
    前記受け付けたテキストデータから前記格納部が格納する文末語を検出し、その検出結果に基づいて、前記テキストデータに含まれる疑問文を推定する推定処理と、
    前記推定した疑問文と、前記音声認識結果と、に基づいて応答データを生成する生成処理と、
    前記応答データを出力する出力処理と、を含む応答データ出力処理を前記コンピュータに実行させるプログラム。
  12. 請求項11に記載のプログラムにおいて、
    前記推定処理は、前記推定した疑問文に対するユーザーの応答を推定し、
    前記音声認識処理は、前記推定したユーザーの応答に基づいて前記ユーザーの音声を認識する、プログラム。
JP2004363225A 2004-12-15 2004-12-15 応答データ出力装置、応答データ出力方法およびプログラム Pending JP2006172110A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004363225A JP2006172110A (ja) 2004-12-15 2004-12-15 応答データ出力装置、応答データ出力方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004363225A JP2006172110A (ja) 2004-12-15 2004-12-15 応答データ出力装置、応答データ出力方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006172110A true JP2006172110A (ja) 2006-06-29

Family

ID=36672804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004363225A Pending JP2006172110A (ja) 2004-12-15 2004-12-15 応答データ出力装置、応答データ出力方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2006172110A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009069744A1 (ja) * 2007-11-29 2009-06-04 Kyocera Corporation 携帯端末
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2010072578A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 対話文生成装置及び方法
CN109976700A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种录音权限转移的方法、电子设备及存储介质
US20220261556A1 (en) * 2018-10-16 2022-08-18 Nippon Telegraph And Telephone Corporation Utterance generation device, method, and program
CN115273852A (zh) * 2022-06-21 2022-11-01 北京小米移动软件有限公司 语音应答方法、装置、可读存储介质及芯片
JP2022169645A (ja) * 2018-01-18 2022-11-09 株式会社ユピテル 装置及びプログラム等

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009069744A1 (ja) * 2007-11-29 2009-06-04 Kyocera Corporation 携帯端末
JP5220763B2 (ja) * 2007-11-29 2013-06-26 京セラ株式会社 携帯端末
US9252978B2 (en) 2007-11-29 2016-02-02 Kyocera Coporation Mobile terminal
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2010072578A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 対話文生成装置及び方法
US8856010B2 (en) 2008-09-22 2014-10-07 Kabushiki Kaisha Toshiba Apparatus and method for dialogue generation in response to received text
JP2022169645A (ja) * 2018-01-18 2022-11-09 株式会社ユピテル 装置及びプログラム等
JP7408105B2 (ja) 2018-01-18 2024-01-05 株式会社ユピテル 装置及びプログラム等
US20220261556A1 (en) * 2018-10-16 2022-08-18 Nippon Telegraph And Telephone Corporation Utterance generation device, method, and program
US12014148B2 (en) * 2018-10-16 2024-06-18 Nippon Telegraph And Telephone Corporation Utterance generation device, method, and program
CN109976700A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种录音权限转移的方法、电子设备及存储介质
CN115273852A (zh) * 2022-06-21 2022-11-01 北京小米移动软件有限公司 语音应答方法、装置、可读存储介质及芯片

Similar Documents

Publication Publication Date Title
US9972318B1 (en) Interpreting voice commands
US11061644B2 (en) Maintaining context for voice processes
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
JP4087400B2 (ja) 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
US8275615B2 (en) Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
EP2645364B1 (en) Spoken dialog system using prominence
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US8185400B1 (en) System and method for isolating and processing common dialog cues
JP2011504624A (ja) 自動同時通訳システム
JP2010048953A (ja) 対話文生成装置
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
EP3503091A1 (en) Dialogue control device and method
Chang et al. Turn-taking prediction for natural conversational speech
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP2008168375A (ja) ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
JP2006172110A (ja) 応答データ出力装置、応答データ出力方法およびプログラム
JP2006208486A (ja) 音声入力装置
JP2007072331A (ja) 音声対話方法および音声対話システム
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP4951422B2 (ja) 音声認識装置、および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091028

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100303