JP2015153108A - 音声会話支援装置、及び音声会話支援方法及びプログラム - Google Patents
音声会話支援装置、及び音声会話支援方法及びプログラム Download PDFInfo
- Publication number
- JP2015153108A JP2015153108A JP2014025902A JP2014025902A JP2015153108A JP 2015153108 A JP2015153108 A JP 2015153108A JP 2014025902 A JP2014025902 A JP 2014025902A JP 2014025902 A JP2014025902 A JP 2014025902A JP 2015153108 A JP2015153108 A JP 2015153108A
- Authority
- JP
- Japan
- Prior art keywords
- input
- answer
- sentence
- question
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Abstract
【課題】ユーザが確実に回答を入力でき、会話をスムーズに行えるように支援する。【解決手段】実施形態によれば、音声会話支援装置は、入力部と、第1の判定部と、第2の判定部と、第3の判定部と、スコアリング部と、画面生成部とを備える。入力部は、ユーザが発声した音声をテキストデータに変換し、またはユーザからの入力操作を受け付ける。第1の判定部は、入力文から、現在の話題を表す1つ以上の話題キーワードを抽出する。第2の判定部は、入力文が質問文か回答文かを判定し質問文と回答文から成る質問対を抽出すると共に、入力文が質問文の場合は質問文の形式と話題キーワードから仮回答カテゴリを推定する。第3の判定部は、仮回答カテゴリまたは回答カテゴリから質問対尤度を算出する。スコアリング部は、仮回答カテゴリ及び質問対尤度に基づいて、各入力方式の優先度に関するスコアを算出する。画面生成部は、スコア順に対応する入力方式を表示する。【選択図】 図1
Description
本発明の実施形態は、2人以上のユーザが音声入力に加え、手書き入力等の入力手段を用いて会話をすることを支援する音声会話支援装置、及び音声会話支援方法及びプログラムに関する。
互いの言語を理解できない人同士が会話をする際には、通訳者が間に入って話者が発声した内容を聞き取り、翻訳する必要がある。しかし、常に通訳者を用意することは極めて困難であり、言語が理解できない話者どうしでは会話をすることができない。
これを解決するために、音声認識技術を用いて発話した音声をテキスト化し、それを機械翻訳で聞き手の言語に翻訳し、画面に表示もしくは音声合成技術を用いて音声再生する音声翻訳の技術がある。
また同じ言語を使用する人同士であっても、コールセンターのように遠隔地で会話をする際などには、音声認識をして音声をテキスト化し、記録に残す必要なデータを自動で取得するといった支援をする技術がある。
上述したような音声翻訳・音声会話支援の技術において、音声認識の精度には限界があり、ユーザが発声した内容と異なるテキスト化をしてしまうことがある。この間違った音声認識結果を元に翻訳すれば相手に意図が伝わらず、会話が成り立たない。
これに対し、人同士の会話においては質問とそれに対する回答が頻繁に繰り返されるため、予め質問文を用意しておけば、質問側は上記の問題を解決できる可能性がある。
しかし、回答側は質問された際に初めて回答を入力するため、この問題を解決できない。
音声認識を用いずキーボードや手書き入力といった代替手段を用いて入力する方法もあるが、装置に慣れていないユーザでは逆に誤りが発生し、また音声認識に比べ時間がかかるために大きなストレスとなってしまう。
音声認識を用いずキーボードや手書き入力といった代替手段を用いて入力する方法もあるが、装置に慣れていないユーザでは逆に誤りが発生し、また音声認識に比べ時間がかかるために大きなストレスとなってしまう。
このように、これまでは音声翻訳・音声会話支援を用いて短い意図を伝えることはできても、スムーズに会話を続けることは困難であった。
目的は、音声認識のみでなく手書き等の他の手段も用いることができる場合に、実際に回答をするユーザが回答を入力しやすい手段を推測し提示することで、ユーザが確実に回答を入力でき、会話をスムーズに行えるように支援し得る音声会話支援装置、及び音声会話支援方法及びプログラムを提供することにある。
実施形態によれば、音声会話支援装置は、ユーザが会話をすることを支援する音声会話支援装置であって、入力部と、第1の判定部と、第2の判定部と、第3の判定部と、スコアリング部と、画面生成部とを備える。入力部は、ユーザが発声した音声をテキストデータに変換する音声入力方式に加えて、手書き文字入力やキーボード入力などによりテキストとして入力される少なくとも1つ以上の入力方式に対応して入力を受け付ける。第1の判定部は、前記入力文から、現在の話題を表す1つ以上の話題キーワードを抽出する。第2の判定部は、前記入力文が質問文か回答文かを判定し質問文と回答文から成る質問対を抽出すると共に、前記入力文が前記質問文の場合は前記質問文の形式と前記話題キーワードから回答となり得る単語のカテゴリを仮回答カテゴリとして推定する。第3の判定部は、前記質問対が得られた場合に前記回答文から回答された内容のカテゴリを推定し、前記仮回答カテゴリまたは回答カテゴリから質問対尤度を算出する。スコアリング部は、前記仮回答カテゴリ及び前記質問対尤度に基づいて、各入力方式の優先度に関するスコアを算出する。画面生成部は、前記スコアリング部で算出したスコア順に対応する前記入力方式を表示する。
以下に添付図面を参照して、この発明にかかる音声会話支援装置の最良な実施の形態を詳細に説明する。
後述する実施形態においては音声会話支援装置を、タブレット端末等のタッチスクリーンを備えた端末の音声翻訳機能に適用した例について説明する。
なお、音声会話支援装置は音声翻訳機能のみでなく、コールセンターの業務支援機能などにも適用可能である。
後述する実施形態においては音声会話支援装置を、タブレット端末等のタッチスクリーンを備えた端末の音声翻訳機能に適用した例について説明する。
なお、音声会話支援装置は音声翻訳機能のみでなく、コールセンターの業務支援機能などにも適用可能である。
(第1の実施形態)
以下、図面を参照しながら第1の実施形態について説明する。
この第1の実施形態は、1つのタッチスクリーンを持つタブレット端末を、日本語を話すユーザと英語を話すユーザが共通して用い、音声認識による入力に加えて、スクリーン上に指で文字を描くことによって文字入力を行う手書き入力が可能な音声会話支援装置を適用した音声翻訳アプリケーションについて説明したものである。
以下、図面を参照しながら第1の実施形態について説明する。
この第1の実施形態は、1つのタッチスクリーンを持つタブレット端末を、日本語を話すユーザと英語を話すユーザが共通して用い、音声認識による入力に加えて、スクリーン上に指で文字を描くことによって文字入力を行う手書き入力が可能な音声会話支援装置を適用した音声翻訳アプリケーションについて説明したものである。
なお言語の組み合わせについてはこれに限らず、音声認識、翻訳等個々の部品がサポートできる言語であれば何を用いても問題無い。
(全体の構成)
本第1の実施の形態にかかる音声会話支援装置は、ユーザが入力した内容を翻訳し、テキストで相手ユーザに提示する場合の例である。なお、この翻訳結果を音声合成し、音声として出力することも可能である。
本第1の実施の形態にかかる音声会話支援装置は、ユーザが入力した内容を翻訳し、テキストで相手ユーザに提示する場合の例である。なお、この翻訳結果を音声合成し、音声として出力することも可能である。
図1は、本第1の実施形態における音声会話支援装置の構成を示すブロック図である。
本実施形態において音声会話支援装置は、入力部11と、翻訳部12と、話題判定部13と、仮回答カテゴリ判定部14と、質問対尤度判定部15と、入力方式信頼性蓄積部16と、回答入力方式スコアリング部17と、回答入力画面生成部18とを備えている。
本実施形態において音声会話支援装置は、入力部11と、翻訳部12と、話題判定部13と、仮回答カテゴリ判定部14と、質問対尤度判定部15と、入力方式信頼性蓄積部16と、回答入力方式スコアリング部17と、回答入力画面生成部18とを備えている。
入力部11は、図示しないマイクやタッチスクリーン等の入力デバイスであって、ユーザがマイクや他の入力方式を使用して発話内容を入力するために用いられる。翻訳部12は、入力部11を使って入力されたテキストデータを翻訳する。話題判定部13は、入力文から、現在の話題を表す1つ以上の話題キーワードを抽出する。
仮回答カテゴリ判定部14は、質問文の形式と話題キーワードから仮回答カテゴリを推定する。質問対尤度判定部15は、回答文から回答された内容のカテゴリを推定し、仮回答カテゴリまたは回答カテゴリから質問対の尤度を算出する。入力方式信頼性蓄積部16は、入力方式に対して仮回答カテゴリの単語を入力するための方法としての信頼性の高さ値を保持する。
回答入力方式スコアリング部17は、仮回答カテゴリ、質問対尤度もしくは入力方式信頼性から各入力方式の優先度に関するスコアを算出する。回答入力画面生成部18は、回答入力方式スコアリング部17で算出した各回答入力方式のスコア順に対応する入力方式を表示する。
音声会話支援装置は、マイクと画面が具備された端末に、音声翻訳のためのアプリケーションとして搭載することができる。マイクは端末に備え付けでなく、ヘッドセットマイクなどの外付けマイクを別途用いるものでも良い。
例えばスマートフォンやタブレットなどの携帯端末、デスクトップ型やノート型のPC(Personal Computer)などのハードウェア装置を用いることができる。
適用端末は1つの端末である必要は無く、入力データもしくは入力文を通信するなどすることで、複数台の端末に適用することも可能である。
適用端末は1つの端末である必要は無く、入力データもしくは入力文を通信するなどすることで、複数台の端末に適用することも可能である。
(画面構成)
図2は、本第1の実施形態における音声翻訳アプリケーションの画面の一例を示す。
画面は日本人用表示21と米国人用表示22から成り、それぞれが会話ログの表示部分23と、入力画面部分24を備えている。
図2は、本第1の実施形態における音声翻訳アプリケーションの画面の一例を示す。
画面は日本人用表示21と米国人用表示22から成り、それぞれが会話ログの表示部分23と、入力画面部分24を備えている。
会話ログでは、日本人用表示21には米国人が発話した内容を翻訳した結果と日本人が発話した内容が、米国人用表示22には米国人が発話した内容と日本人が発話した内容を翻訳した結果が表示される。
入力画面部分24では、初期状態では図示したように可能な入力方式(ここでは音声入力方式111、手書き入力方式112、図面ポインティング方式による地図入力方式113)が表示され、そのうちの一つ(ここでは音声入力)が選択されている。
この状態で日本人が発話をするとその音声が認識され、認識結果テキストが日本人用表示21の会話ログに、更に翻訳した結果テキストが米国人用表示22の会話ログに表示される。
この状態で日本人が発話をするとその音声が認識され、認識結果テキストが日本人用表示21の会話ログに、更に翻訳した結果テキストが米国人用表示22の会話ログに表示される。
(各部の詳細)
以下では、各部の詳細を処理の順に沿って述べる。
(入力部)
入力部11は、複数の入力方式を備えたデバイス、画面部品、機能を示している。本第1の実施形態においては、音声入力方式111、手書き入力方式112、地図入力方式113 、テンキー入力方式を備えているものとする。ここで挙げた入力方式は一例であって、端末に対してユーザの入力操作を行う手段であれば、これに限らず使用することができる。
以下では、各部の詳細を処理の順に沿って述べる。
(入力部)
入力部11は、複数の入力方式を備えたデバイス、画面部品、機能を示している。本第1の実施形態においては、音声入力方式111、手書き入力方式112、地図入力方式113 、テンキー入力方式を備えているものとする。ここで挙げた入力方式は一例であって、端末に対してユーザの入力操作を行う手段であれば、これに限らず使用することができる。
音声入力方式111では、マイクデバイスを用いてユーザの発話音声を取り込み、画面上に音量インジケータなどを表示し、音声認識機能を用いてそれをテキストに変換した結果を取得する。
手書き入力方式112では、タッチスクリーンデバイスを用いてユーザのポインティング及びジェスチャ位置を受け取り、手書き文字認識機能を用いてそれをテキストに変換した結果を取得する。
地図入力方式113では、画面上に地図を表示し、タッチスクリーンデバイスを用いてユーザのポインティング位置を受け取り、タッチされた位置の地名や建物名等のテキストを取得する。
テンキー入力方式では画面上に電卓状のボタンを表示し、タッチスクリーンデバイスを用いてユーザのポインティング位置を受け取り、タッチされた数字のテキストを取得する。
テンキー入力方式では画面上に電卓状のボタンを表示し、タッチスクリーンデバイスを用いてユーザのポインティング位置を受け取り、タッチされた数字のテキストを取得する。
(翻訳部)
翻訳部12は、入力部11において入力されたテキストをもう片方の言語に翻訳する。翻訳されたテキストは、画面上(図2)の聞き手側に表示されるテキストとして用いる。
翻訳の手段としては何を用いても良く、一般的なトランスファー方式、用例ベース方式、統計ベース方式、中間言語方式など、既知の機械翻訳技術において利用されているあらゆる方法を適用することができる。
翻訳部12は、入力部11において入力されたテキストをもう片方の言語に翻訳する。翻訳されたテキストは、画面上(図2)の聞き手側に表示されるテキストとして用いる。
翻訳の手段としては何を用いても良く、一般的なトランスファー方式、用例ベース方式、統計ベース方式、中間言語方式など、既知の機械翻訳技術において利用されているあらゆる方法を適用することができる。
(話題判定部)
話題判定部13は、入力された文章から、現在の話題を表すキーワードを1つ以上抽出する。このキーワードを話題キーワードと呼ぶ。
対象となる文章は、入力部11で入力された文章そのものでも良いし、翻訳部12で翻訳された結果でも良い。また双方から話題キーワードを抽出し、ANDもしくはORをとることもできる。
話題判定部13は、入力された文章から、現在の話題を表すキーワードを1つ以上抽出する。このキーワードを話題キーワードと呼ぶ。
対象となる文章は、入力部11で入力された文章そのものでも良いし、翻訳部12で翻訳された結果でも良い。また双方から話題キーワードを抽出し、ANDもしくはORをとることもできる。
ここでは、日本で入力された文章はそのまま入力文章から、英語で入力された文章は翻訳結果から話題キーワードを抽出するとする。
話題キーワードを抽出する具体的な方法は、例えば固定の単語を辞書に保持しておき、文章中にそれと合致した単語が見つかったら抽出するという方法を用いることができる。
話題キーワードを抽出する具体的な方法は、例えば固定の単語を辞書に保持しておき、文章中にそれと合致した単語が見つかったら抽出するという方法を用いることができる。
図3は、辞書31の一例を示す。この辞書31は、話題キーワードと所属する単語とを対応づけた辞書である。辞書31の項目には、図3に示すように単語文字列を用いても良いし、正規表現を用いても良い。
例えば図2の会話に上述した方法を適用すると、入力文は「I'm planning to sightsee in this area.」であり、その翻訳結果は「この周辺の観光をする予定です。」となる。話題キーワードの辞書と照らし合わせると、「この周辺」「観光」が所属する単語に載っているので、話題キーワードとして「周辺」 「観光」抽出される。
また他の方法としては、例えば、既存の形態素解析やtf・idfなどの技術を利用して文章群で特徴的な名詞句を取り出す方法、公知の固有表現抽出手法を用いて固有名詞を取り出しその意味属性を判定する方法などを用いることができる。なお、tf・idfは、関連情報のある1文書の中でのその単語の出現頻度tfと、その単語が全文書中のどのくらいの文書に出現するかを表す尺度の逆数idfを掛け合わせる技術である。
更に、公知の話題分割手法では、テキスト中に含まれる語彙を比較し、話題の切れ目を自動的に検出する手法が開示されているので、これを用いて語彙を抽出することもできる。
なお、話題キーワードの保持期間は、その入力がなされた文章から予め定められた文数が入力されるまで、もしくは予め定められた時聞が経過するまで、とすれば良い。もしくは、前述した話題分割手法を用いて、話題の切れ目毎に話題キーワードをクリアしても良い。
なお、話題キーワードの保持期間は、その入力がなされた文章から予め定められた文数が入力されるまで、もしくは予め定められた時聞が経過するまで、とすれば良い。もしくは、前述した話題分割手法を用いて、話題の切れ目毎に話題キーワードをクリアしても良い。
(仮回答カテゴリ判定部)
仮回答カテゴリ判定部14では、まず入力文が質問文か回答文かを判定し、質問文とその直後の回答文があった場合にはその組み合わせを質問対として抽出する。
仮回答カテゴリ判定部14では、まず入力文が質問文か回答文かを判定し、質問文とその直後の回答文があった場合にはその組み合わせを質問対として抽出する。
(質問文型判定)
質問文であるかどうかの判定は、既知の質問文の文型判定の方法を用いる。仮回答カテゴリ判定部14は、入力文が図4に示す文型41のどれであるかを判定し、質問の文型であれば質問文、そうでなければ質問文ではなく、更に処理している入力文が質問文の直後であれば回答文であると判断できる。
例えば、図2に示した質問文「どこに行くんですか?」の例の場合、質問文の形式は「where」となる。
質問文であるかどうかの判定は、既知の質問文の文型判定の方法を用いる。仮回答カテゴリ判定部14は、入力文が図4に示す文型41のどれであるかを判定し、質問の文型であれば質問文、そうでなければ質問文ではなく、更に処理している入力文が質問文の直後であれば回答文であると判断できる。
例えば、図2に示した質問文「どこに行くんですか?」の例の場合、質問文の形式は「where」となる。
(質問文からの仮回答カテゴリ推定)
更に、入力文が質問文だった場合には、仮回答カテゴリ判定部14は質問文の形式と話題判定部13で抽出された話題キーワードから、仮回答カテゴリを推定する。仮回答カテゴリは、回答として想定される単語のカテゴリであり、例えば単語の意味属性などをカテゴリとして用いる。
仮回答カテゴリ判定部14は、カテゴリをツリー状、もしくはネットワーク状に管理したカテゴリを持っておく。図5は、カテゴリツリーの一例を示す(実際はツリーではなく、ダグになっている)。
更に、入力文が質問文だった場合には、仮回答カテゴリ判定部14は質問文の形式と話題判定部13で抽出された話題キーワードから、仮回答カテゴリを推定する。仮回答カテゴリは、回答として想定される単語のカテゴリであり、例えば単語の意味属性などをカテゴリとして用いる。
仮回答カテゴリ判定部14は、カテゴリをツリー状、もしくはネットワーク状に管理したカテゴリを持っておく。図5は、カテゴリツリーの一例を示す(実際はツリーではなく、ダグになっている)。
例えば図2に示した質問文「どこに行くんですか?」の例の場合、質問文の形式はWhere(場所)、話題キーワードは「周辺(このキーワードはシステムの実施場所に応じて展開され、例えば「日本」等になる。)」「観光」なので、カテゴリツリーから場所に関する部分木を取り出し、更に「日本」「観光」でカテゴリを検索する。すると、仮回答カテゴリとして「日本の観光スポット名」が得られる。
なお、質問文の文型がYes/Noであった場合は、答えとしては「はい」や「いいえ」が想定されるため、仮回答カテゴリは無い。
なお、質問文の文型がYes/Noであった場合は、答えとしては「はい」や「いいえ」が想定されるため、仮回答カテゴリは無い。
(質問対尤度判定都)
質問対尤度判定部15は、入力文が回答文であると判定された場合に、回答文から回答内容のカテゴリを推定する。
また、質問文から得られる仮回答カテゴリと、回答文から推定される回答カテゴリを比較することで、質問対の尤度、すなわち質問対がどれだけ正しい応対となっているかの指標を算出する。
質問対尤度判定部15は、入力文が回答文であると判定された場合に、回答文から回答内容のカテゴリを推定する。
また、質問文から得られる仮回答カテゴリと、回答文から推定される回答カテゴリを比較することで、質問対の尤度、すなわち質問対がどれだけ正しい応対となっているかの指標を算出する。
図2に示した例では、質問の後、米国人が「I’m going to go to Kawasaki.」と音声入力方式で回答し、音声認識が誤って「I’m going to go to call Osaki.」と認識したとする。このとき画面は図6のようになり、回答文として「I’m going to go to call Osaki.」が得られる。
質問対は(質問) 「どこに行くんですか」−(回答) 「I’m going to go to call Osaki.」であり、仮回答カテゴリは上述した通り「日本の観光スポット名」である。質問対尤度判定部15は、この質問文に対して、回答文がどれくらい正しいかを求めることとなる。
(必要なテーブルの例)
質問対尤度判定部15は、図7に示すような回答テンプレート辞書71を持っておく。回答テンプレート辞書71は、回答文として有り得る文章を穴あきのテンプレートとして保持している辞書であり、図中の<>で固まれた部分が穴あき部分である。穴あき部分にはカテゴリ名(もしくはカテゴリ名の組み合わせ)を記述している。この穴あき部分が回答文中の回答にあたる部分である。
例えばテンプレート「I would like to go to <場所>.」は、回答文「I would like to go to Kawasaki.」や「I would like go to the toilet.」 における“Kawasaki”や“the toilet”が回答者の答えたかった回答内容であることを示す。
質問対尤度判定部15は、図7に示すような回答テンプレート辞書71を持っておく。回答テンプレート辞書71は、回答文として有り得る文章を穴あきのテンプレートとして保持している辞書であり、図中の<>で固まれた部分が穴あき部分である。穴あき部分にはカテゴリ名(もしくはカテゴリ名の組み合わせ)を記述している。この穴あき部分が回答文中の回答にあたる部分である。
例えばテンプレート「I would like to go to <場所>.」は、回答文「I would like to go to Kawasaki.」や「I would like go to the toilet.」 における“Kawasaki”や“the toilet”が回答者の答えたかった回答内容であることを示す。
(質問対尤度算出方法)
図8は、質問対尤度判定部15における質問対の尤度を算出する具体的な方法を示すフローチャートである。
図8は、質問対尤度判定部15における質問対の尤度を算出する具体的な方法を示すフローチャートである。
以下、この図8に沿って質問対の尤度を算出する方法を説明する。
質問対尤度判定部15は、回答文が得られた場合、まず回答カテゴリの推定を行う。回答文に対し構文解析を行い(ステップST8a)、その結果が名詞句であるか否かの判断を行う(ステップST8b)ここで、名詞句であれば(Yes)、質問対尤度判定部15は回答文全体に対して意味属性解析を行う(ステップST8c)。回答カテゴリは、意味属性解析結果そのものとなる。例えば回答文が「Kawasaki City.」 であった場合、回答カテゴリは“日本地名(市)”となる。
質問対尤度判定部15は、回答文が得られた場合、まず回答カテゴリの推定を行う。回答文に対し構文解析を行い(ステップST8a)、その結果が名詞句であるか否かの判断を行う(ステップST8b)ここで、名詞句であれば(Yes)、質問対尤度判定部15は回答文全体に対して意味属性解析を行う(ステップST8c)。回答カテゴリは、意味属性解析結果そのものとなる。例えば回答文が「Kawasaki City.」 であった場合、回答カテゴリは“日本地名(市)”となる。
上記ステップST8bにおいて、構文解析の結果回答文が名詞句でない場合には(No)、質問対尤度判定部15は回答テンプレート辞書71から回答文と合致するテンプレートを検索し(ステップST8d)、合致するテンプレート(エントリTi)があるか否かの判断を行う(ステップST8e)。ここで、合致するテンプレートが見つからない場合(No)、質問対尤度判定部15は回答カテゴリを特定できず、“不明”となる(ステップST8f)。
また、上記ステップST8eにおいて、合致するテンプレートが見つかった場合に(Yes)、質問対尤度判定部15はテンプレートの穴あき部分が回答文でどこにあたるかを同定する(ステップST8g)。例えば、例として挙げた回答文「I'm going to go to call Osaki.」を検索すると、「I’m going to go to <場所> .」が得られる。テンプレートの穴あき部分(<場所>)と合致するのは“call Osaki”である。これが回答部分となる。
そして、質問対尤度判定部15は、得られた回答部分に意味属性解析を行う(ステップST8h)。その結果が回答カテゴリとなる。例の場合、“call Osaki”は名詞句ではなく動詞句である。このため、回答カテゴリは“動詞句”となる。
このようにして回答カテゴリが得られた後、質問対尤度判定部15は、カテゴリスコアS をf(仮回答カテゴリ)から算出する(ステップST8i)。ただし式fは、仮回答カテゴリと回答カテゴリ間の距離が近ければ高い値、遠ければ低い値になるようにする。簡単な方法としては、カテゴリが全く同じであればSa、仮回答カテゴリと回答カテゴリが、カテゴリツリー上階層関係にあれば(例えば“地名”と“日本地名”、“日本地名”と“日本観光スポット名”など)Sb、無関係であればSc、回答カテゴリが“不明”であればSdというあらかじめ定めた値(ただし、Sa≧Sb≧Sc≧Sd)をSとして用いる方法がある。また他にも、階層関係上の深さの違いによってカテゴリスコアを決める、等の方法が考えられる。
カテゴリスコアを算出した後、質問対尤度判定部15は回答文を入力するために使用した入力方式I、回答入力に要した時間tを取得し(ステップST8j)、カテゴリスコアS、入力方式I、回答入力に要した時間tを用いて質問対尤度を計算する(ステップST8k)。
質問対尤度は、S,I,tを引数とした算出式g(S,I,t)によって得られる。g(S,I,t)は、引数Sに対し単調増加、引数tに対し単調減少であることが望ましい。例えば、質問対尤度判定部15は、図9に示すように、各入力方式に対する重み値テーブル91を持っておき、入力方式Iに対する重み値wを重み値テーブル91から取得することで、g(S,I,t) = S×wI×1/t といった式を用いることができる。
なお、質問対尤度の算出に入力にかかった時間を使わない場合に、質問対尤度判定部15はカテゴリスコアをそのまま質問対尤度として用いれば良い。
例えば、Sa =1.0, Sb = 0.8, Sc = 0.2, Sd = 0.0 とした場合で上述の例を見てみると、“call Osaki”は動詞句である。よって回答カテゴリは“動詞句”と推定される。仮回答カテゴリは“ 日本の観光スポット名”であり“call Osaki”とは階層関係では無い。このため、カテゴリスコアはs= 0.1 という値が使われる。入力方式は音声入力方式であるため、重み値はwI=1.0、入力にかかった時間がt=2.0秒とすると、質問対尤度は0.2×1.0×1/2.0=0.1 となる。
例えば、Sa =1.0, Sb = 0.8, Sc = 0.2, Sd = 0.0 とした場合で上述の例を見てみると、“call Osaki”は動詞句である。よって回答カテゴリは“動詞句”と推定される。仮回答カテゴリは“ 日本の観光スポット名”であり“call Osaki”とは階層関係では無い。このため、カテゴリスコアはs= 0.1 という値が使われる。入力方式は音声入力方式であるため、重み値はwI=1.0、入力にかかった時間がt=2.0秒とすると、質問対尤度は0.2×1.0×1/2.0=0.1 となる。
(入力方式信頼性蓄積部)
入力方式信頼性蓄積部16は、各カテゴリの語句を入力するための方法として、各入力方式の信頼性がどのくらい高いかの値を、ユーザごとに保持する。これは質問対尤度の値を学習するためのものであり、後述する「まだ回答がなされていない状態」での回答入力方式スコアリングに用いる。
入力方式信頼性蓄積部16は、各カテゴリの語句を入力するための方法として、各入力方式の信頼性がどのくらい高いかの値を、ユーザごとに保持する。これは質問対尤度の値を学習するためのものであり、後述する「まだ回答がなされていない状態」での回答入力方式スコアリングに用いる。
(データの内容)
入力方式信頼性蓄積部16で蓄積されるデータは、図10のテーブル101となる。テーブル101は、ユーザ番号と、入力方式、語句のカテゴリごとに信頼性を保持している。まだデータの無いカテゴリ、入力方式については空にしている。
入力方式信頼性蓄積部16で蓄積されるデータは、図10のテーブル101となる。テーブル101は、ユーザ番号と、入力方式、語句のカテゴリごとに信頼性を保持している。まだデータの無いカテゴリ、入力方式については空にしている。
(値の更新)
入力方式信頼性蓄積部16の値の更新は、質問対尤度判定部15によってなされる。入力方式信頼性蓄積部16は、質問対尤度判定部15が質問対尤度を算出した後、回答を入力したユーザ、回答を入力した方式、質問文から得られた仮回答カテゴリから該当するレコードを検索し、質問対尤度を使ってそのレコードの信頼性値を更新する。レコードが存在しなければ、新しくレコードを作って値を入れる。
入力方式信頼性蓄積部16の値の更新は、質問対尤度判定部15によってなされる。入力方式信頼性蓄積部16は、質問対尤度判定部15が質問対尤度を算出した後、回答を入力したユーザ、回答を入力した方式、質問文から得られた仮回答カテゴリから該当するレコードを検索し、質問対尤度を使ってそのレコードの信頼性値を更新する。レコードが存在しなければ、新しくレコードを作って値を入れる。
信頼性値は質問対尤度そのもので上書きしても良いし、値の急激な変化を避けるために元の値と信頼性尤度の重み付き和などを用いても良い。図10のテーブル102は、更新後のテーブルの一例となる。
(回答入力方式スコアリング部)
回答入力方式スコアリング部17は、回答したユーザと、仮回答カテゴリ判定部14で推定された仮回答カテゴリと、質問対尤度判定部15で算出された質問対尤度もしくは入力方式信頼性蓄積部16に蓄積されている信頼性の値を用いて、入力部11が持っている各入力方式に対し、優先度のスコアを算出する。
回答入力方式スコアリング部17は、回答したユーザと、仮回答カテゴリ判定部14で推定された仮回答カテゴリと、質問対尤度判定部15で算出された質問対尤度もしくは入力方式信頼性蓄積部16に蓄積されている信頼性の値を用いて、入力部11が持っている各入力方式に対し、優先度のスコアを算出する。
回答文が入力されたと判定されたときには、回答入力方式スコアリング部17は質問対尤度判定部15によって算出された質問対尤度を使ってスコアリングを行う。簡単には、質問対尤度をそのまま入力方式のスコアとすれば良い。
例えば図6の例の場合は、回答入力方式が音声入力で、質問対尤度が0.1であったため、音声入力方式のスコアは0.1となる。
例えば図6の例の場合は、回答入力方式が音声入力で、質問対尤度が0.1であったため、音声入力方式のスコアは0.1となる。
(回答入力画面生成部)
回答入力画面生成部18は、回答入力方式スコアリング部17で算出した各回答入力方式のスコアを元に、回答入力画面を生成して表示する。ユーザによる回答がなされており、回答入力方式スコアリング部17で算出されたスコアが低い場合(予め定めた閾値未満の場合)は、ユーザが回答入力に失敗したと判断し、再回答を促す画面を提示する。
回答入力画面生成部18は、回答入力方式スコアリング部17で算出した各回答入力方式のスコアを元に、回答入力画面を生成して表示する。ユーザによる回答がなされており、回答入力方式スコアリング部17で算出されたスコアが低い場合(予め定めた閾値未満の場合)は、ユーザが回答入力に失敗したと判断し、再回答を促す画面を提示する。
図11は、再回答を促す画面の一例を示す。この例の場合、音声入力方式のスコアが低かったため、代替手段として手入力方式での再入力を回答ユーザに促す。代替手段として何を用いるかについては、入力方式信頼性蓄積部16に、該当する回答ユーザ、入力方式、仮回答カテゴリのレコードがあれば、回答入力画面生成部18はその値の高い順に、一定数(予め定められた個数、もしくは画面に収まるまでの数など)選択する。そして、一番値の高い入力方式をデフォルトで選択状態にし、それ以外の入力方式を小さなアイコンで表示する。もしくは、値の高さに応じてアイコンの大きさを変えるなどしても良い。
該当するレコードが無い場合、もしくは入力方式信頼性の値を蓄積しない場合は、予め定められた入力方式順(例えば音声入力→手書き入力→…)を一定数用いればよい。この際、他の入力方式については図11に示した通り小さなアイコンで表示する他、非表示にする等の方法を取ることができる。
再入力による回答入力についても、質問対尤度判定部15による尤度算出、入力方式信頼性蓄積部16のデータ更新がなされる。
(まだ回答文が入力されていないときの処理)
上記の回答入力方式スコアリング部17、回答入力画面生成部18は、回答文が入力されて質問対が得られた状態での処理であった。仮回答カテゴリ判定部14によって質問文が入力されたと判定され、まだ回答文が入力されていない状態においては、以下の処理を行う。なお、入力方式信頼性蓄積部16を含まない実施形態の場合は、この処理は行われない。
上記の回答入力方式スコアリング部17、回答入力画面生成部18は、回答文が入力されて質問対が得られた状態での処理であった。仮回答カテゴリ判定部14によって質問文が入力されたと判定され、まだ回答文が入力されていない状態においては、以下の処理を行う。なお、入力方式信頼性蓄積部16を含まない実施形態の場合は、この処理は行われない。
(回答入力方式スコアリング部〉
回答入力方式スコアリング部17は、推定された仮回答カテゴリと、回答したユーザのレコードが入力方式信頼性蓄積部16に存在するか否かをチェックする。もし、該当するレコードが存在するならば、回答文の入力を待たず、入力方式信頼性蓄積部16に蓄積される値を使ってスコアリングを行う。具体的なスコアは、簡単には入力方式信頼性蓄積部16に蓄積される値をそのまま使えば良い。
回答入力方式スコアリング部17は、推定された仮回答カテゴリと、回答したユーザのレコードが入力方式信頼性蓄積部16に存在するか否かをチェックする。もし、該当するレコードが存在するならば、回答文の入力を待たず、入力方式信頼性蓄積部16に蓄積される値を使ってスコアリングを行う。具体的なスコアは、簡単には入力方式信頼性蓄積部16に蓄積される値をそのまま使えば良い。
例えば、図6に示した質問入力、回答入力がなされた後、更に「他にどこか行きますか?」という質問が入力された場合の例を考える。質問文「他にどこか行きますか?」の質問文型はwhereであり、話題キーワードはその前と変わっていないため、仮回答カテゴリは前の質問文と同じ“日本の観光スポット名”となる。回答ユーザも同じユーザであるため、この仮回答カテゴリについては入力方式信頼性蓄積部16に該当レコードが存在する。図10のテーブル102から、音声入力方式のスコアは0.1、手書き入力方式のスコアは0.5となる。
(回答入力画面生成部)
質問のみがされて回答がまだなされていない状態で、回答入力方式スコアリング部17がスコアを付けた場合、回答入力画面生成部18は回答入力方式スコアリング部17で算出されたスコアに従って、回答ユーザがこれから回答を入力するための画面を生成する。
質問のみがされて回答がまだなされていない状態で、回答入力方式スコアリング部17がスコアを付けた場合、回答入力画面生成部18は回答入力方式スコアリング部17で算出されたスコアに従って、回答ユーザがこれから回答を入力するための画面を生成する。
図12は、手書き入力方式112の画面例を示す。この場合は再回答を促す画面ではなく、“日本観光スポット名”を入力するために最適と考えられる手書き入力方式112が、デフォルトで選択状態になる。
図13(a)、(b)は、地図入力方式113の画面例を示す。この場合、“日本観光スポット名”を入力するために最適と考えられる地図入力方式113が、デフォルトで選択状態になる。
図13(a)に示した例では、米国人が「I’m going to go to Kawasaki.」と音声入力方式111で回答した後、日本人が「他にどこか行きますか?」という質問を音声入力方式111で入力したとする。すると、米国人用表示22の入力画面24には、例えば「Kawasaki」を中心とした「日本」または「関東地方」の少なくとも一部が地図入力方式113として表示されることになる。
図13(b)に示すように、質問の後、米国人が指で「Atami」をタッチしたとする。なお、画面には、米国人が指で「Atami」をタッチすると、「Atami」に指を示すマークが表示されることになる。このとき、画面会話ログの米国人用表示22の表示部分23には、回答文としてテキスト「Atami」が表示される。
図14(a)、(b)は、地図入力方式113の他の画面例を示す。図14(a)に示した例では、米国人が「I’m going to go to Kawasaki.」と音声入力方式111で回答した後、日本人が「他にどこか行きますか?」という質問を音声入力方式111で入力したとする。すると、米国人用表示22の入力画面24には、例えば「Kawasaki」を中心とした「日本」または「関東地方」の少なくとも1部が地図入力方式113として表示されることになる。
図14(b)に示すように、質問の後、米国人が指で「Atami」をタッチしたとする。このとき、画面は図14(b)に示すようになり、回答文として日本人用表示21の入力画面24に、例えば「Kawasaki」を中心とした「関東地方」の一部が表示され、「Atami」が黒丸で表示されることになる。
その他の代替入力方式の表示については、再回答促しの画面を生成する際と同様の処理をすれば良い。
その他の代替入力方式の表示については、再回答促しの画面を生成する際と同様の処理をすれば良い。
(処理の手順)
実際の処理の手順を、金額に関する質問の例を使って説明する。
(質問以外の会話のとき)
質問文が発生しない会話を行っている際には、システムは入力部11で受け取った入力文を翻訳部12で翻訳し、表示する。また、話題判定部13は、入力された文章及び翻訳された文章から、話題キーワードを抽出し保持しておく。
実際の処理の手順を、金額に関する質問の例を使って説明する。
(質問以外の会話のとき)
質問文が発生しない会話を行っている際には、システムは入力部11で受け取った入力文を翻訳部12で翻訳し、表示する。また、話題判定部13は、入力された文章及び翻訳された文章から、話題キーワードを抽出し保持しておく。
例えば、日本の店舗に設置された音声会話支援装置で、日本人の店員と米国人の客が、商品のお土産について話をしているとする。この場合、話題キーワードとして「お土産」など「買い物」に関するキーワードが得られることになる。
(質問とそれに対する回答がされたとき)
質問文が入力されると、仮回答カテゴリ判定部14は質問文から仮回答カテゴリを推定する。例えば、米国人があるお土産について「How much is it? 」と質問をしたとする。この質問は、文型がHow muchであり、話題キーワードは「買い物」なので、仮回答カテゴリは金額となる。
質問文が入力されると、仮回答カテゴリ判定部14は質問文から仮回答カテゴリを推定する。例えば、米国人があるお土産について「How much is it? 」と質問をしたとする。この質問は、文型がHow muchであり、話題キーワードは「買い物」なので、仮回答カテゴリは金額となる。
日本人側がまだ金額を入力したことが無い場合には、まだ入力方式信頼性蓄積部16にその仮回答カテゴリのレコードが存在せず、回答文が入力されるのを待つ。回答文が入力された場合に、質問対尤度判定部15は回答文から回答カテゴリを推定し、質問対尤度を算出する。また、質問対尤度判定部15は質問対尤度を使って入力方式信頼性蓄積部16の値を更新する。
日本人が音声入力を用いて「500円です。」と言い、音声認識が誤認識をして「こんにゃく円です。」という回答文が入力されてしまったとする。回答として同定されるのは「こんにゃく」の部分であり、意味属性解析の結果、回答カテゴリは“食べ物”になってしまう。このため、質問対尤度は低い値となる。また、入力方式信頼性蓄積部16の日本人ユーザ/音声入力/“金額”の値を更新する。
回答入力方式スコアリング部17は、質問対尤度から回答入力方式のスコアを算出する。算出されたスコアの値が低い場合に、回答入力画面生成部18は代替入力方式を使って再回答を促す画面を生成する。上記の例では質問対尤度が低く、音声入力/金額のスコアは低くなる。そのため、代替入力方式としてテンキーを用いた再回答促し画面を生成し、提示する。
再回答がされて新しく回答文が得られた場合に、質問対尤度判定部15は、再度質問対尤度を算出し、その回答入力方式、回答カテゴリの入力方式信頼性蓄積部16の値を更新する。テンキーを用いて正しく金額を入力した場合、この質問対の尤度は高い値となる。そのため、入力方式信頼蓄積部16の日本人ユーザ/テンキー/“金額”の値は、日本人ユーザ/音声入力/“金額”の値よりも高い値となる。
(前と同じ仮回答カテゴリの質問がされ、まだ回答がされていないとき)
質問文が入力され、既に入力方式信頼性蓄積部16にその仮回答カテゴリのレコードが存在する場合、回答入力方式スコアリング部17は回答文を待たず、各入力方式のスコアを算出する。そのスコアを元に回答入力画面生成部18は、回答入力の画面を生成、回答ユーザに提示する。
質問文が入力され、既に入力方式信頼性蓄積部16にその仮回答カテゴリのレコードが存在する場合、回答入力方式スコアリング部17は回答文を待たず、各入力方式のスコアを算出する。そのスコアを元に回答入力画面生成部18は、回答入力の画面を生成、回答ユーザに提示する。
上記の例の後、米国人が別の商品について再度「How much is it?」と聞いた場合、仮回答カテゴリは“金額”であり、入力方式信頼性蓄積部16には日本人ユーザ/テンキー/“金額”のレコードと、日本人ユーザ/音声入力/“金額”のレコードがある。このため、音声入力のスコアよりもテンキーのスコアが高くなり、回答入力画面生成部18はデフォルトでテンキーが選択された状態の回答画面を生成し、日本人側に提示する。日本人ユーザは最初から失敗の確率が高い音声入力方式を用いず、テンキーを用いて金額を入力することができる。
(第1の実施形態の効果)
以上のように第1の実施形態においては、質問と実際に行った回答に応じて最適な回答入力方式が提示されるため、ユーザが確実に回答を入力でき、会話がスムーズに行われる。
また、一度失敗した回答入力方式については優先度が下がり、同じユーザが何度も同じ失敗をすることを減らすことができる。
以上のように第1の実施形態においては、質問と実際に行った回答に応じて最適な回答入力方式が提示されるため、ユーザが確実に回答を入力でき、会話がスムーズに行われる。
また、一度失敗した回答入力方式については優先度が下がり、同じユーザが何度も同じ失敗をすることを減らすことができる。
(第2の実施形態)
以下、図面を参照しながら第2の実施形態について、第1の実施形態との差分を中心に説明する。
この第2の実施形態は、上記第1の実施形態と同じく、音声会話支援装置を適用した音声翻訳アプリケーションについて説明したものである。
以下、図面を参照しながら第2の実施形態について、第1の実施形態との差分を中心に説明する。
この第2の実施形態は、上記第1の実施形態と同じく、音声会話支援装置を適用した音声翻訳アプリケーションについて説明したものである。
第1の実施形態との違いは、話題キーワードをユーザが手動で追加入力する、質問文が入力された際に自動で回答となりうる語の選択肢を生成し、ユーザに提示する、話者の立場(例えば客、店員等)、性別や年齢などの情報を保持し、それによって回答入力方式の優先度を変える、機能を持つことである。
(全体の構成)
図15は、本第2の実施形態における音声会話支援装置の構成を示すブロック図である。なお、図15において、上記図1と同一部分には同一符号を付して詳細な説明を省略する。
本第2の実施形態における音声会話支援装置は、第1の実施形態に加え、話題入力部1301と、選択肢生成部1302と、話者プロファイル蓄積部1303とを備える。
図15は、本第2の実施形態における音声会話支援装置の構成を示すブロック図である。なお、図15において、上記図1と同一部分には同一符号を付して詳細な説明を省略する。
本第2の実施形態における音声会話支援装置は、第1の実施形態に加え、話題入力部1301と、選択肢生成部1302と、話者プロファイル蓄積部1303とを備える。
話題入力部1301は、追加の話題をユーザが入力する画面を提示し、話題判定部13に入力された追加の話題キーワードを提供する。選択肢生成部1302は、仮回答カテゴリ判定部14が質問文と判定した際に、仮回答カテゴリから回答候補となる選択肢を生成する。話者プロファイル蓄積部1303は、話者プロファイル情報としてユーザの立場、使用言語、性別、を保持する。
さらに、入力部11は、複数の選択肢を提示しユーザからの選択入力を受け付ける選択肢入力方式を持ち、回答入力方式スコアリング部17は、第1の実施形態のスコアリングに加え、生成された選択肢と、話者プロファイルを用いてスコアリングを行うものとする。
(画面構成)
図16は、本第2の実施形態における音声翻訳アプリケーションの画面の一例を示す。上記第1の実施形態の画面に加え、日本人側の表示に話題を入力するための画面1401が用意されている。この場合、例えば、「遊ぶ」、「見る」、「食事」、「宿泊」が画面1401に表示される。
図16は、本第2の実施形態における音声翻訳アプリケーションの画面の一例を示す。上記第1の実施形態の画面に加え、日本人側の表示に話題を入力するための画面1401が用意されている。この場合、例えば、「遊ぶ」、「見る」、「食事」、「宿泊」が画面1401に表示される。
(各部の詳細)
(入力部)
上記第1の実施形態に加え、本第2の実施形態においては選択肢入力方式を備えているとする。
(入力部)
上記第1の実施形態に加え、本第2の実施形態においては選択肢入力方式を備えているとする。
入力部11は、選択肢入力方式で画面上にいくつかの選択肢をボタンとして表示し、タッチスクリーンデバイスを用いてユーザのポインティング位置を取得し、タッチされたボタンの選択肢に表示されているテキストを入力内容として取得する。
(話者プロファイル蓄積部)
話者プロファイル蓄積部1303は、それぞれのユーザの立場、年齢、性別の情報を蓄積する。ユーザの立場とは、例えば、店舗における客や店員のことを指す。図17は、話者プロファイル蓄積部1303に蓄積される話者プロファイル1501の一例を示す。
話者プロファイル蓄積部1303は、それぞれのユーザの立場、年齢、性別の情報を蓄積する。ユーザの立場とは、例えば、店舗における客や店員のことを指す。図17は、話者プロファイル蓄積部1303に蓄積される話者プロファイル1501の一例を示す。
話者プロファイル1501は、どのような方法で取得しても良い。日本の店舗においてユーザの立場は、日本人側が店員、米国人側が客となる。また、店員の年齢・性別は予め入力しておくことができるし、客の年齢・性別は会話開始時に店員が入力すれば良い。また他にも、音声が入力された際に音声の情報から年齢・性別を推定する方法もある。
(話題入力部)
話題入力部1301は、ユーザが追加の話題キーワードを入力できる画面を提示する。ここでは特に、店員と客の会話における店員等、会話を主導するユーザにその機能を提供するとする。どちらのユーザに提供するかについては、話者プロファイル蓄積部1303に蓄積された“立場” の項を参照するものとする。
話題入力部1301は、ユーザが追加の話題キーワードを入力できる画面を提示する。ここでは特に、店員と客の会話における店員等、会話を主導するユーザにその機能を提供するとする。どちらのユーザに提供するかについては、話者プロファイル蓄積部1303に蓄積された“立場” の項を参照するものとする。
どのような話題を入力できるようにするかについては、図16に示したような、予め定められた選択肢を用いる方法の他に、ユーザが好きなキーワードを入力できるようにする方法、これまでに出てきた話題キーワードの履歴を用いる方法などがある。
例えば、図16では、入力文だけからでは話題キーワードとして“観光”、“東京”が抽出されるが、日本人ユーザが話題入力部1301を通して“遊ぶ”を選択することができる。これは、東京の観光スポット名、特に食事等でなくテーマパーク等の体験型施設に限定する意味がある。
話題判定部13は、入力文から抽出された話題キーワードに加え、話題入力部1301で入力された追加の話題キーワードも含めて話題キーワードとする。
話題判定部13は、入力文から抽出された話題キーワードに加え、話題入力部1301で入力された追加の話題キーワードも含めて話題キーワードとする。
(選択肢生成都)
選択肢生成部1302は、仮回答カテゴリ判定部14が入力文を質問文と判定した際に、その文型と仮回答カテゴリ、話題キーワードから答えになりそうな選択肢を生成する。選択肢を生成する方法は、例えば、質問応答システムの回答生成に用いられる公知の技術を用いれば良い。簡単な方法としては、選択肢生成部1302は、図18に示すように、仮回答カテゴリ毎に選択肢のデータベース1601を用意しておき、データベース1601を検索すれば良い。
選択肢生成部1302は、仮回答カテゴリ判定部14が入力文を質問文と判定した際に、その文型と仮回答カテゴリ、話題キーワードから答えになりそうな選択肢を生成する。選択肢を生成する方法は、例えば、質問応答システムの回答生成に用いられる公知の技術を用いれば良い。簡単な方法としては、選択肢生成部1302は、図18に示すように、仮回答カテゴリ毎に選択肢のデータベース1601を用意しておき、データベース1601を検索すれば良い。
(回答入力方式スコアリング部)
質問文が入力され、入力方式信頼性蓄積部16には該当する回答ユーザ/仮回答カテゴリのレコードがあるものの、該当する回答ユーザ/選択肢入力/仮回答カテゴリのレコードが無かった場合に、回答入力方式スコアリング部17は、生成された選択肢を用いて選択肢入力方式のスコアを疑似的に算出する。
質問文が入力され、入力方式信頼性蓄積部16には該当する回答ユーザ/仮回答カテゴリのレコードがあるものの、該当する回答ユーザ/選択肢入力/仮回答カテゴリのレコードが無かった場合に、回答入力方式スコアリング部17は、生成された選択肢を用いて選択肢入力方式のスコアを疑似的に算出する。
スコアの算出方法は、質問対尤度の算出方法と似た方法で行う。すなわち、上記第1の実施形態におけるg(S, I, t)=S×wI×1/tを用いる。仮回答カテゴリから選択肢を生成しているため、選択肢の回答カテゴリは仮回答カテゴリと一致するので、カテゴリスコアS=Sa=1.0 となり、図9よりwI=1.2である。
実際には、まだ選択肢入力方式での入力がなされていないため、かかる時間は不明である。その代わり、生成された選択肢の数が少なければ選択にかかる時間は短く、選択肢の数が多ければ選択にかかる時間が長くなると予想されるため、選択肢の数に応じてtの値を疑似的に決める。
簡単には、選択肢の数がある閾値よりも少なければt= Oa、閾値よりも多ければt=Ob、ただし、Oa<Ob(例えばOa=2.0, Ob=5.0など)とすれば良い。すなわち、閾値よりも選択肢数が少ない場合スコアはSa×wI×1/Oaとなる。
また、閾値を定める方法以外にも、選択肢の数に応じた式t= h(選択肢数)を用いても良い。例えば、h(選択肢数)=0.5×選択肢数+1.0などである。
更に、話者プロファイル1501に蓄積されている情報を用いてスコアの調整を行う。例えば、立場が“店員”の場合、誤認識が起こりうる音声入力方式や手書き入力方式はスコアを下げる、年齢が高い場合は音声認識の誤認識が起こりやすいため音声入力方式のスコアを下げ、更に選択肢数の閾値を変える、等である。
(処理の手順)
以下では、図16に示した会話例に従って処理の手順を説明する。
例えば、米国人が「I'd like to go sightseeing around Tokyo. Where is the good place?」 と話したとする。それに対し日本人は話題入力部1301で“遊ぶ”を選択する。話題判定部13よって抽出される話題キ一ワ一ドは“観光”、“東京”、 “遊ぶ”であり、仮回答カテゴリ判定部14は質問文型をWhere、仮回答カテゴリを“東京観光スポット名”と判定する。
以下では、図16に示した会話例に従って処理の手順を説明する。
例えば、米国人が「I'd like to go sightseeing around Tokyo. Where is the good place?」 と話したとする。それに対し日本人は話題入力部1301で“遊ぶ”を選択する。話題判定部13よって抽出される話題キ一ワ一ドは“観光”、“東京”、 “遊ぶ”であり、仮回答カテゴリ判定部14は質問文型をWhere、仮回答カテゴリを“東京観光スポット名”と判定する。
この内容から選択肢生成部1302はローカルのデータベース、もしくはWeb上の情報を検索し、東京観光スポット名の選択肢を生成する。初めてこの文型・仮回答カテゴリの質問がされた際は、音声会話支援装置は回答文が入力されるまで待つ。
日本人が音声入力を用いて「東京スカイツリーがお勧めです。」 と回答文を入力したとする。音声認識は正しく認識し、入力には2.0秒かかったとする。
仮回答カテゴリと回答カテゴリが一致するため、質問対尤度はSa=1.0, wI=1.0, t= 2.0から1.0×1.0×1/2.0= 0.5 となる。更に、回答ユーザは図15より立場が“官員”なので、音声入力方式のスコアは更に下がり、その結果は0.45となったとする。入力方式信頼性蓄積部の日本人ユーザ/音声入力/“東京観光スポット名”の値も同様である。尤度が閾値よりも高いため、再回答の促しは行われない。この際の画面の一例は、図19に示すようになる。
再度、違う米国人が同じ日本人に、同じ質問をしたとする。この際、入力方式信頼性蓄積部16には日本人ユーザ/音声入力/“東京観光スポット名”のレコードが既に存在しており、その値は0.45である。
ただし、先ほどと同じく選択肢生成部1302が選択肢を生成しており、更にその数は特定の閾値よりも少なかったとする。回答入力方式スコアリング部17は、選択肢入力方式のスコアを上述した方法で算出する。
すなわち、 Sa= 1.0, wI = 1.2, Oa = 2.0より、選択肢入力方式のスコアは 1.0×1.2×0.5=0.6である。こうして選択肢入力方式のスコアが音声入力方式のスコアよりも高くなるため、回答入力画面生成部18は選択肢による選択肢入力画面2001を生成し、ユーザに提示する。この際の画面の一例は、図20に示すようになる。
この画面上でユーザが回答を入力したら、質問対尤度判定部15で質問対尤度を算出し、入力方式信頼性蓄積部16に新しく日本人ユーザ/選択肢入力/ “東京観光スポット名”のレコードが追加される。
この際には、実際に選択肢入力にかかった時間が考慮された値が追加されることになるため、もしこの回答時に時間がかかっていたら、次に同じ質問があったときにはまた音声入力の画面が提示されることになる。
この際には、実際に選択肢入力にかかった時間が考慮された値が追加されることになるため、もしこの回答時に時間がかかっていたら、次に同じ質問があったときにはまた音声入力の画面が提示されることになる。
(第2の実施形態の効果)
以上のように第2の実施形態においては、上記第1の実施形態に加え、ユーザが個々の回答を入力する代わりに適切な数の選択肢から答えを選択するだけで回答を入力できるため、更に会話をスムーズにすることができる。
また、話題キーワードを店員等の会話を主導するユーザが選択することができるため、選択肢をより絞り込み、また推薦したい情報に限定して回答することができるようになる。
以上のように第2の実施形態においては、上記第1の実施形態に加え、ユーザが個々の回答を入力する代わりに適切な数の選択肢から答えを選択するだけで回答を入力できるため、更に会話をスムーズにすることができる。
また、話題キーワードを店員等の会話を主導するユーザが選択することができるため、選択肢をより絞り込み、また推薦したい情報に限定して回答することができるようになる。
(その他の実施形態)
上記各実施形態によれば、質問と実際に行った回答に応じて最適な回答入力方式が提示されるためユーザが確実に回答を入力でき、回答入力の失敗や回答にかかる時間が減り、会話がスムーズに行われる。また、一度失敗した回答入力方式については優先度が下がり、同じユーザが何度も同じ失敗をすることを減らすことができる。
上記各実施形態によれば、質問と実際に行った回答に応じて最適な回答入力方式が提示されるためユーザが確実に回答を入力でき、回答入力の失敗や回答にかかる時間が減り、会話がスムーズに行われる。また、一度失敗した回答入力方式については優先度が下がり、同じユーザが何度も同じ失敗をすることを減らすことができる。
上記音声会話支援装置の各部11〜18,1301〜1303で説明した個々の処理は、コンピュータプログラムによってソフトウェア処理することが可能である。この場合、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…入力部、12…翻訳部、13…話題判定部、14…仮回答カテゴリ判定部、15…質問対尤度判定部、16…入力方式信頼性蓄積部、17…回答入力方式スコアリング部、18…回答入力画面生成部、21…日本人用表示、22…米国人用表示、23…表示部分、24…入力画面、31…辞書、41…文型、71…回答テンプレート辞書、91…重み値テーブル、101,102…テーブル、1301…話題入力部、1302…選択肢生成部、1303…話者プロファイル蓄積部、1401…画面、1501…話者プロファイル、1601…データベース、2001…選択肢入力画面。
Claims (10)
- ユーザが会話をすることを支援する音声会話支援装置であって、
ユーザが発声した音声をテキストデータに変換する音声入力方式、及び、ユーザからの入力操作を受け付ける他の入力方式に対応して入力を受け付けて入力文とする入力部と、
前記入力文から、現在の話題を表す1つ以上の話題キーワードを抽出する第1の判定部と、
前記入力文が質問文か回答文かを判定し質問文と回答文から成る質問対を抽出すると共に、前記入力文が前記質問文の場合は前記質問文の形式と前記話題キーワードから回答となり得る単語のカテゴリを仮回答カテゴリとして推定する第2の判定部と、
前記質問対が得られた場合に前記回答文から回答された内容のカテゴリを推定し、前記仮回答カテゴリまたは回答カテゴリから質問対尤度を算出する第3の判定部と、
前記仮回答カテゴリ及び前記質問対尤度に基づいて、各入力方式の優先度に関するスコアを算出するスコアリング部と、
前記スコアリング部で算出したスコア順に対応する前記入力方式を表示する画面生成部と、
を具備する音声会話支援装置。 - 前記入力部に入力されたテキストデータを第1言語から第2言語に、もしくは前記第2言語から前記第1言語に翻訳することで入力文を得る翻訳部を備える請求項1記載の音声会話支援装置。
- 前記入力部は、前記他の入力方式として、テキストデータを直接入力する直接入力方式、複数の選択肢を提示しユーザからの選択入力を受け付ける選択肢入力方式、図面を表示しユーザからのポインティングにより該図面中に示す項目に対する入力を受け付ける図面ポインティング入力方式、テンキーボードを表示しユーザからの数値入力を受け付ける数値入力方式、の少なくとも1つを備える請求項1記載の音声会話支援装置。
- 前記第3の判定部は、前記質問対が得られた場合に、前記仮回答カテゴリ・回答カテゴリと入力にかかった時間から前記質問対尤度を算出する請求項1記載の音声会話支援装置。
- 前記入力部の各入力方式に対し、仮回答カテゴリの単語を入力するための方法としての信頼性の高さ値を保持する蓄積部をさらに備え、
前記スコアリング部は、前記質問文のみが得られた状態で、前記蓄積部に蓄積された信頼性の高さ値を用いてスコアを算出する請求項1記載の音声会話支援装置。 - 前記第2の判定部が質問文と判定した際に、前記仮回答カテゴリから回答候補となる選択肢を生成する選択肢生成部をさらに備え、
前記スコアリング部は、前記仮回答カテゴリ、前記質問対の尤度に加え生成された選択肢から各入力方式の優先度に関するスコアを算出する請求項1記載の音声会話支援装置。 - 少なくともユーザの立場、使用言語、性別を含む話者プロファイル情報を保持するプロファイル蓄積部をさらに備え、
前記スコアリング部は、前記話者プロファイル情報も用いてスコアを算出する請求項1記載の音声会話支援装置。 - さらに、詳細な話題キーワードをユーザが入力可能な話題入力部を備え、
前記第1の判定部は、前記話題入力部で入力された話題キーワードを含めて話題キーワードを選出する請求項1記載の音声会話支援装置。 - ユーザが会話をすることを支援する音声会話支援装置に用いられる音声会話支援方法であって、
ユーザが発声した音声をテキストデータに変換する音声入力方式、及び、ユーザからの入力操作を受け付ける他の入力方式に対応して入力を受け付けて入力文とし、
前記入力文から、現在の話題を表す1つ以上の話題キーワードを抽出し、
前記音声会話支援装置が、前記入力文が質問文か回答文かを判定し質問文と回答文から成る質問対を抽出すると共に、前記入力文が前記質問文の場合は前記質問文の形式と前記話題キーワードから回答となり得る単語のカテゴリを仮回答カテゴリとして推定し、
前記質問対が得られた場合に前記回答文から回答された内容のカテゴリを推定し、前記仮回答カテゴリまたは回答カテゴリから質問対尤度を算出し、
前記仮回答カテゴリ及び前記質問対尤度に基づいて、各入力方式の優先度に関するスコアを算出し、
前記算出したスコア順に対応する前記入力方式を表示すること、
を備える音声会話支援方法。 - ユーザが会話をすることを支援する音声会話支援装置により実行されるプログラムであって、前記音声会話支援装置を
ユーザが発声した音声をテキストデータに変換する音声入力方式、及び、ユーザからの入力操作を受け付ける他の入力方式に対応して入力を受け付けて入力文とする入力部と、
前記入力文から、現在の話題を表す1つ以上の話題キーワードを抽出する第1の判定部と、
前記入力文が質問文か回答文かを判定し質問文と回答文から成る質問対を抽出すると共に、前記入力文が前記質問文の場合は前記質問文の形式と前記話題キーワードから回答となり得る単語のカテゴリを仮回答カテゴリとして推定する第2の判定部と、
前記質問対が得られた場合に前記回答文から回答された内容のカテゴリを推定し、前記仮回答カテゴリまたは回答カテゴリから質問対尤度を算出する第3の判定部と、
前記仮回答カテゴリ及び前記質問対尤度に基づいて、各入力方式の優先度に関するスコアを算出するスコアリング部と、
前記スコアリング部で算出したスコア順に対応する前記入力方式を表示する画面生成部と
して動作させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025902A JP2015153108A (ja) | 2014-02-13 | 2014-02-13 | 音声会話支援装置、及び音声会話支援方法及びプログラム |
CN201510069761.7A CN104850543A (zh) | 2014-02-13 | 2015-02-10 | 语音对话支持装置和语音对话支持方法 |
US14/621,854 US9484034B2 (en) | 2014-02-13 | 2015-02-13 | Voice conversation support apparatus, voice conversation support method, and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025902A JP2015153108A (ja) | 2014-02-13 | 2014-02-13 | 音声会話支援装置、及び音声会話支援方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015153108A true JP2015153108A (ja) | 2015-08-24 |
Family
ID=53775456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014025902A Pending JP2015153108A (ja) | 2014-02-13 | 2014-02-13 | 音声会話支援装置、及び音声会話支援方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9484034B2 (ja) |
JP (1) | JP2015153108A (ja) |
CN (1) | CN104850543A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126252A (ja) * | 2016-01-15 | 2017-07-20 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
CN108109618A (zh) * | 2016-11-25 | 2018-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 语音交互方法、系统以及终端设备 |
WO2020218344A1 (ja) * | 2019-04-23 | 2020-10-29 | Necフィールディング株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990234B1 (en) * | 2014-02-28 | 2015-03-24 | Lucas J. Myslinski | Efficient fact checking method and system |
US10956957B2 (en) * | 2015-03-25 | 2021-03-23 | Facebook, Inc. | Techniques for automated messaging |
US10965622B2 (en) * | 2015-04-16 | 2021-03-30 | Samsung Electronics Co., Ltd. | Method and apparatus for recommending reply message |
US10409919B2 (en) * | 2015-09-28 | 2019-09-10 | Konica Minolta Laboratory U.S.A., Inc. | Language translation for display device |
GB201522187D0 (en) * | 2015-12-16 | 2016-01-27 | Unitalk Ltd | A communication system and a communication process for enabling a first and second user to communicate over a communications system |
JP7028179B2 (ja) * | 2016-09-29 | 2022-03-02 | 日本電気株式会社 | 情報処理装置、情報処理方法およびコンピュータ・プログラム |
US10891947B1 (en) | 2017-08-03 | 2021-01-12 | Wells Fargo Bank, N.A. | Adaptive conversation support bot |
JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
US11258750B2 (en) | 2019-12-19 | 2022-02-22 | Honeywell International Inc. | Systems and methods for unified data and voice messages management |
CN111966840A (zh) * | 2020-08-18 | 2020-11-20 | 北京猿力未来科技有限公司 | 一种语言教学的人机交互管理方法和管理系统 |
US11551674B2 (en) * | 2020-08-18 | 2023-01-10 | Bank Of America Corporation | Multi-pipeline language processing platform |
US11770268B2 (en) * | 2022-02-14 | 2023-09-26 | Intel Corporation | Enhanced notifications for online collaboration applications |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934895A (ja) | 1995-07-14 | 1997-02-07 | Sony Corp | 翻訳システム |
US6498921B1 (en) | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
JP2005222316A (ja) | 2004-02-05 | 2005-08-18 | Toshiba Corp | 会話支援装置、会議支援システム、受付業務支援システム及びプログラム |
JP2006252382A (ja) | 2005-03-14 | 2006-09-21 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4079275B2 (ja) | 2005-04-20 | 2008-04-23 | 株式会社ソニー・コンピュータエンタテインメント | 会話支援装置 |
JP4439431B2 (ja) | 2005-05-25 | 2010-03-24 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP2008158985A (ja) | 2006-12-26 | 2008-07-10 | Sharp Corp | 電子機器およびその制御方法 |
JP2009205579A (ja) | 2008-02-29 | 2009-09-10 | Toshiba Corp | 音声翻訳装置およびプログラム |
US8407042B2 (en) | 2008-12-09 | 2013-03-26 | Xerox Corporation | Cross language tool for question answering |
JP5535238B2 (ja) | 2009-11-30 | 2014-07-02 | 株式会社東芝 | 情報処理装置 |
JP5653392B2 (ja) | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US20140272914A1 (en) * | 2013-03-15 | 2014-09-18 | William Marsh Rice University | Sparse Factor Analysis for Learning Analytics and Content Analytics |
US20150186528A1 (en) * | 2013-12-26 | 2015-07-02 | Iac Search & Media, Inc. | Request type detection for answer mode selection in an online system of a question and answer search engine |
-
2014
- 2014-02-13 JP JP2014025902A patent/JP2015153108A/ja active Pending
-
2015
- 2015-02-10 CN CN201510069761.7A patent/CN104850543A/zh not_active Withdrawn
- 2015-02-13 US US14/621,854 patent/US9484034B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126252A (ja) * | 2016-01-15 | 2017-07-20 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
CN108109618A (zh) * | 2016-11-25 | 2018-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 语音交互方法、系统以及终端设备 |
WO2020218344A1 (ja) * | 2019-04-23 | 2020-10-29 | Necフィールディング株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JPWO2020218344A1 (ja) * | 2019-04-23 | 2020-10-29 |
Also Published As
Publication number | Publication date |
---|---|
US9484034B2 (en) | 2016-11-01 |
CN104850543A (zh) | 2015-08-19 |
US20150228280A1 (en) | 2015-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015153108A (ja) | 音声会話支援装置、及び音声会話支援方法及びプログラム | |
US10977452B2 (en) | Multi-lingual virtual personal assistant | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
JP3962763B2 (ja) | 対話支援装置 | |
EP3032532B1 (en) | Disambiguating heteronyms in speech synthesis | |
CN105869640B (zh) | 识别针对当前页面中的实体的语音控制指令的方法和装置 | |
EP3405912A1 (en) | Analyzing textual data | |
JP6966979B2 (ja) | 対話システムの制御方法、対話システム及びプログラム | |
US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
US11093110B1 (en) | Messaging feedback mechanism | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
KR20220000046A (ko) | 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법 | |
JP2020003926A (ja) | 対話システムの制御方法、対話システム及びプログラム | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
JP5242726B2 (ja) | 外国語接客支援装置、外国語接客方法及びプログラム | |
JP2012037790A (ja) | 音声対話装置 | |
KR101891495B1 (ko) | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 | |
KR20160138613A (ko) | 이모티콘을 이용한 자동통역 방법 및 이를 이용한 장치 | |
JP2008216461A (ja) | 音声認識・キーワード抽出・知識ベース検索連携装置 | |
JP4622861B2 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム | |
JP2011027979A (ja) | 音声翻訳装置及び音声翻訳方法 | |
JP6383748B2 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
JP7211384B2 (ja) | 音声認識装置、個人識別方法および個人識別プログラム | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム |