JP3962763B2

JP3962763B2 - 対話支援装置

Info

Publication number: JP3962763B2
Application number: JP2006512298A
Authority: JP
Inventors: 研治水谷; 純幸沖本; 太郎南部
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-04-12
Filing date: 2005-04-04
Publication date: 2007-08-22
Anticipated expiration: 2025-04-04
Also published as: JPWO2005101235A1; US7650283B2; CN1942875B; US20050283365A1; CN1942875A; WO2005101235A1

Description

本発明は、音声で入力された原言語の文を目的言語に変換して音声または文字で出力する携帯型の対話支援装置に関するものである。

音声入力を翻訳する対話支援システムは、ワークステーションやパーソナルコンピュータの上のソフトウェアとして開発されてきた。その性能は実験室環境において、旅行会話などの用途に会話の範囲を限定した場合、その使い方を熟知しているユーザにとっては実用的なレベルまで到達している。しかしながら、ユーザビリティという観点では、一般の海外旅行者が実際の旅行で使うことができるレベルには到達していない。ユーザビリティを高めるためには、容易に携行できる程度の大きさのハードウェアに実装し、かつ、容易に習熟することが可能で、簡単に操作ができるユーザインタフェースを実現する必要がある。

従来は、片手で持つことができる程度のPDA(Personal Digital Assistance)に対して、ワークステーションやパーソナルコンピュータ上で開発した音声翻訳ソフトウェアを機能や性能を制限して移植することによってユーザビリティの向上を目指してきた（例えば非特許文献１参照）。

ところで、音声入力による、用例に基づく翻訳方式では、一般的な旅行会話をカバーするためには数千の用例を用意する必要があり、音声認識の結果によっては候補となる用例が多数出現する場合がある。例えば、用例全体で見たときに出現頻度の高い単語（例えば「ある」や「円」など）が音声認識で確度良く認識され、それ以外の単語がうまく認識されない場合は、必然的に候補として選択されてユーザに提示される用例の数は増加する。そのような場合、ユーザは用例候補の中から所望の用例を選択することは容易ではない。特に用例候補の一覧を見るための表示装置が小さく、同時に見ることができる用例の数が著しく少ない場合には、提示された候補の中から所望の用例を選択することはより一層困難になる。また、候補の用例を閲覧中に所望の用例に近い用例を発見した場合、その用例を採用するのか、あるいは、より近い用例を検索するのか判断に迷う場合も多い。したがって大量の用例候補の選択を補助する機能が必要である。

そこで、本願出願人は、用例中の単語の依存関係に基づいて用例を検索することによって柔軟な検索を可能とするとともに、表示内容についての使用性の向上を図ることができる音声変換装置を提案している（例えば、特許文献１参照。）。
Kenji Matsui et al. "AN EXPERIMENTAL MULTILINGUAL SPEECH TRANSLATION SYSTEM", Workshops on Perceptual/Perceptive User Interfaces 2001, ACM Digital Library, ISBN 1-58113-448-7 特開２００３−２８８３３９号公報

しかしながら、用例の検索精度の改善には限界があり、特に用例候補の一覧を見るための表示装置が小さく、同時に見ることができる用例の数が著しく少ない場合には、まだ充分ではなく、提示された候補の中から所望の用例を選択することは困難である。

そこで、本発明は上記の事情に鑑みてなされたものであり、入力された音声に対応する用例候補の中から所望の用例を容易に選択することができる対話支援装置を提供することを目的とする。

上記目的を達成するため、本発明に係る対話支援装置は、入力される原言語の音声を認識し、音声認識結果に応じて、前記原言語に対応する翻訳言語を提示する対話支援装置であって、前記音声認識結果に含まれるキーワードに基づいて原言語の用例を検索する用例検索手段と、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出する用例比較手段と、検索された前記用例を表示するとともに、前記キーワード一致度に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段とを備えることを特徴とする。

以上の説明から明らかなように、本発明に係る対話支援装置によれば、多数の用例候補の中でユーザが所望するであろう用例に含まれるキーワードを、強調して表示することができる。よって、音声認識結果が不十分で用例の候補が多数得られる場合でも、ユーザは、強調表示、あるいは、ソートされた用例候補の中から所望の用例を簡単かつ速やかに選択することが可能になる。したがって、ユーザは音声入力によって速やかに所望の用例を検索することができ、対話の相手を待たせることがないので、対話支援装置を介した対話をスムーズに進行することができ、原言語以外の言語が必要とされる機会が増加し、対話支援装置が普及しつつある今日における実用的価値は極めて高い。

本発明の実施の形態に係る対話支援装置は、入力される原言語の音声を認識し、音声認識結果に応じて、前記原言語に対応する翻訳言語を提示する対話支援装置であって、前記音声認識結果に含まれるキーワードに基づいて原言語の用例を検索する用例検索手段と、前記音声認識結果と、検索された前記用例との比較を行う用例比較手段と、検索された前記用例を表示するとともに、前記音声認識結果と前記用例との比較に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段とを備えることを特徴とする。

これによって、多数の用例候補の中でユーザが所望するであろう用例に含まれるキーワードを、強調して表示することができる。よって、ユーザは、入力した音声に対応する多数の用例候補の中から所望の用例を簡単かつ速やかに選択することが可能になる。

ここで、前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出し、前記用例表示制御手段は、前記キーワード一致度に基づいて前記用例の中の前記キーワードを強調表示することが好ましい。

また、前記用例比較手段は、前記キーワード一致度に基づいて前記キーワードを強調表示する際の表示パラメータを算出し、前記用例表示制御手段は、前記表示パラメータに基づいて前記用例の中の前記キーワードを強調表示してもよい。

また、前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置、および前記音声認識結果における前記キーワードの位置を、読み表記または発音記号の文字列における出現位置で算出してもよい。

これによって、例えば音声認識による発声からの経過時間等を用いてキーワードの位置を算出するのに比べて、キーワードの位置の算出を短時間で行うことができる。

また、前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置、および前記音声認識結果における前記キーワードの位置を、読み表記または発音記号の文字列における出現位置で算出する際に、前記読み表記または前記発音記号の文字数を文字の種類に応じて可変して計数してもよい。

また、前記用例比較手段は、前記原言語が日本語である場合、前記文字の種類が前記読み表記の短音、長音、および促音のいずれであるかに応じて文字数を変更して計数してもよい。

また、前記用例比較手段は、前記原言語が英語である場合、前記文字の種類が前記発音記号の母音、長母音、および子音のいずれであるかに応じて文字数を変更して計数してもよい。

また、前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置との差を、前記キーワード一致度としてもよい。

また、前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置との差を正規化した値を、前記キーワード一致度としてもよい。

また、前記用例比較手段は、前記用例中に含まれる各キーワードの前記キーワード一致度に基づいて、前記用例に対する文一致度を算出してもよい。

ここで、前記用例比較手段は、前記キーワード一致度が所定値以上である前記キーワードの前記用例中における数を前記文一致度として算出してもよい。

また、前記用例表示制御手段は、前記用例を複数表示する際に、前記文一致度に基づいて前記用例の表示順序を決定してもよい。

これによって、多数の用例候補の中でユーザが所望するであろう用例を、優先して表示することができる。よって、ユーザは、多数の用例候補の中から所望の用例を簡単かつ速やかに選択することが可能になる。

また、本発明に係る用例検索装置は、入力される文に対応する用例を検索する用例検索装置であって、前記文に含まれるキーワードに基づいて前記用例を検索する用例検索手段と、前記文と、検索された前記用例との比較を行う用例比較手段と、検索された前記用例を表示するとともに、前記文と前記用例との比較に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段とを備えることを特徴とする。

これによって、多数の用例候補の中でユーザが所望するであろう用例に含まれるキーワードを、強調して表示することができる。よって、ユーザは、多数の用例候補の中から所望の用例を簡単かつ速やかに選択することが可能になる。

なお、本発明は、このような対話支援装置として実現することができるだけでなく、このような対話支援装置が備える特徴的な手段をステップとする対話支援方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

以下、本発明の実施の形態について、図面を参照しながら説明する。

図１は本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。

対話支援装置１００は、入力される原言語の音声を認識し、認識された音声認識結果に応じて、原言語に対応する翻訳言語（目的言語）を提示する対話支援装置であり、図１に示すように制御部１０１、ＧＵＩ(Graphical User Interface)部１０２、音声入力部１０３、音声認識部１０４、データベース部１１５、翻訳部１１６、音声合成部１１３、および音声出力部１１４を備えている。また、データベース部１１５は、用例データベース１０５、クラス単語情報１０６、および単語辞書１０７を備えている。また、翻訳部１１６は、用例選択部１０８、用例比較部１１２、単語選択部１０９、代替単語選択部１１０、および言語変換部１１１を備えている。

制御部１０１は、各構成要素に指示を行い、各構成要素間の情報の流れを制御する。ＧＵＩ部１０２は、ユーザからの入力を受け付け、制御部１０１に送るとともに、制御部１０１からの用例等の情報を表示パラメータに基づいて表示する。音声入力部１０３は、ユーザの音声を集音する。音声認識部１０４は、音声入力部１０３から送られるユーザの音声を連続音声認識する。用例データベース１０５は、原言語と目的言語の用例の対応を保持する。クラス単語情報１０６は、用例データベース１０５において、クラス化されている単語に関する情報を保持する。単語辞書１０７は、用例データベース１０５とクラス単語情報１０６で使用されているすべての単語（キーワード）に関する情報を保持する。用例選択部１０８は、制御部１０１から送られてくる音声認識結果またはＧＵＩ部１０２の操作に従って、用例データベース１０５の中から１つ以上の用例を選択する。

用例比較部１１２は、用例選択部１０８によって選択された１つ以上の用例について、音声認識部１０４により認識された音声認識結果と比較し、単語の出現位置を計算する。また、用例比較部１１２は、単語の出現位置より単語のスコア（キーワード一致度）を計算し、この単語のスコアに基づいて各用例の各単語について表示パラメータを算出する。単語選択部１０９は制御部１０１からの指示に従って、用例選択部１０８により選択された用例の中の、１つの用例についてクラス化された単語の選択を行う。代替単語選択部１１０は、制御部１０１により指定されたクラス化された単語について、クラス単語情報１０６を参照して代替単語を選択する。言語変換部１１１は、制御部１０１により指定された用例を用例データベース１０５およびクラス単語情報１０６を参照することにより目的言語に変換する。音声合成部１１３は、制御部１０１より指定された目的言語による用例文を合成音声に変換する。音声出力部１１４は、音声合成部１１３の出力を音声としてユーザに提供する。

図２は用例データベース１０５の具体例を示す図である。ここでは、説明を簡単にするため多数の用例の中から４つの用例を選択したものである。用例は対話の１文に対応し、一般の旅行会話において使用される頻度が高い文である。「用例番号：」のフィールドは、用例データベースの中で１つの用例を同定するための識別子であり、他の用例と重複することはない。各用例において「原言語：」と「目的言語：」のフィールドは、原言語と目的言語の対応を保持している。「原言語の構成要素：」、「構成要素の依存関係：」は用例を音声で検索するときに使用される。

「原言語：」のフィールドにおいて、スラッシュ「/」記号は単語辞書１０７で管理されている単語の区切りを表す。また、「原言語：」のフィールドにおいて、丸数字は「原言語の構成要素：」のフィールドに登録されている単語を指すポインタである。例えば、用例２０３において「原言語：」のフィールドの丸数字２は、「原言語の構成要素：」のフィールドの丸数字２「かかり」を指す。したがって、用例２０３の「原言語：」フィールドは対話支援装置１００において、「＜日数＞かかりますか」と解釈される。

対話支援装置１００において、クラス化とは「意味的に同類または同種の単語と関連付けされたこと」を意味する。例えば用例２０３の「原言語の構成要素：」のフィールドの丸数字１、および、用例２０４の「原言語の構成要素：」のフィールドの丸数字２はそれぞれクラス化された単語である。クラス化された単語は、クラス単語情報１０６で定義される同じクラスの単語と置換が可能である。本実施の形態では便宜上、クラス化された単語については不等号で囲んで記述している。

図３はクラス単語情報１０６の具体例３０１、および、単語辞書１０７の具体例３０２を示す図である。各クラスは対話支援装置１００で唯一の識別子（クラスＩＤ）を持ち、クラス名には「薬」や「果物」のように抽象度の高い単語が割り当てられる。具体例３０１において同じクラスＩＤに所属する「原言語」と「目的言語」の単語の対の中で、先頭の行はクラス代表単語である。例えば、クラス名＜薬＞において、「薬」"medicine"は、ｃ１のクラス代表単語である。それ以外の行はクラスの具体的な実体を表現するメンバ単語である。例えば、ｃ１において「アスピリン」"aspirin"や「トローチ」"troche"などはｃ１のメンバ単語である。なお、クラス単語情報１０６はクラスを階層化して構成してもよい。単語辞書１０７は、クラス単語情報１０６に含まれるすべての単語と、用例データベース１０５の「原言語の構成要素：」のフィールドに出現する単語を保持して管理する。各単語は本装置内で唯一の識別子（単語ＩＤ）を持ち、その表記と読み、および、クラス単語情報１０６へのポインタで構成される。例えば、具体例３０２における単語ＩＤが「ｗ２」である単語は、その表記として「犬」を、読みとして「イヌ」を、クラス情報としてｃ３を持ち、具体例３０１のクラス名＜ペット＞を指す。なお、図２に示した用例データベース１０５の具体例においては、「原言語：」フィールドと「原言語の構成要素：」フィールドには便宜上、単語の表記やクラス名を使用しているが、実際には単語ＩＤやクラスＩＤで構成されている。

図４は市販の一般的なＰＤＡや小型のパーソナルコンピュータに本発明を実装した様子を示す図である。音声入力部１０３はマイク４０１、音声出力部１１４はスピーカ４０２に相当し、ユーザは４０１に対して音声を発し、相手に４０２から出力される目的言語の音声を聞いてもらう。ＧＵＩ部１０２はタッチパネル付液晶ディスプレイ４０３に相当し、ユーザはスタイラス４０４を用いて液晶ディスプレイ４０３に表示されたオブジェクトを操作する。また、選択部４０５は用例を表示および選択するための領域、用例選択結果表示部４０６はユーザにより指定された用例を表示する領域、翻訳結果表示部４０７は言語変換部１１１が目的言語に変換した用例を表示する領域である。ボタン４０８は音声入力を開始する直前に押す領域である。なお、容易に類推して実現できることから図４には示していないが、ＰＤＡやパーソナルコンピュータにボタンやキーボードなどの入力デバイスが実装されている場合は、スタイラス４０４の代わりにこれらの入力デバイスを用いてＧＵＩ部１０２を操作することも可能である。

次に、上記のように構成された対話支援装置１００の動作について、まず簡単のために用例比較部１１２の動作を除いて説明する。

図５は対話支援装置１００の用例比較部１１２を除いた動作の流れを示す基本的なフローチャートであり、図６から図１６はＧＵＩ部１０２の表示内容の一例を示す図である。

まず、図６に示すようにボタン４０８がユーザによって指定されると、制御部１０１は音声入力部１０３に音声入力を指示する。ユーザはマイク４０１を用いて例えば「あの、なにかくすりはありませんか」と発声する。音声入力部１０３は、入力された音声を音声認識部１０４に送信する（ステップＳ５０１）。音声認識部１０４は音声認識を行い、認識結果を制御部１０１に出力する（ステップＳ５０２）。

以下では、「あの、なにかくすりはありませんか」という入力に対して、誤認識を含んだ認識結果「７日薬はありますか」が音声認識部１０４から出力された場合について説明する。

制御部１０１は、「７日薬はありますか」から用例を検索するように用例選択部１０８に命令する。用例選択部１０８は、「７日薬はありますか」から用例を検索する（ステップＳ５０３）。すなわち、用例選択部１０８は、「７日薬はありますか」という音声認識結果から、用例データベース１０５で定義されている用例の「原言語の構成要素：」のフィールドに出現する単語、すなわち、重要語の集合である「７日」、「薬」、「あり」、を抽出する。なお、「原言語の構成要素：」のフィールドに出現するクラスと同じクラスに所属する単語については「原言語の構成要素：」に出現する単語と見なす。例えば、図３に示すように「７日」はクラス単語＜日数＞のメンバ単語であり、「薬」はクラス単語＜薬＞のメンバ単語であるので、どちらも「原言語の構成要素：」のフィールドに出現する単語である。

用例選択部１０８は、用例データベース１０５の各用例について「原言語の依存関係：」のフィールドを走査して依存関係を順次確認する。そして、依存関係が１つ以上成立する用例の中で、成立数が多い用例から順に選択する。例えば、図２に示す用例２０３については、重要語の集合の中に「かかり」が存在しないので依存関係の成立数は０である。用例２０４については、重要語の集合の中に「何か」が存在しないので、構成要素の依存関係の中で、丸数字（１→２）は成立しないが、丸数字（２→３）は成立する。したがって、依存関係の成立数は１である。

用例選択部１０８が、依存関係の成立数が１以上の用例を用例データベース１０５の中から選択するように設計すると、用例２０３は選択されず、用例２０４は選択される。
以下の説明では、用例データベース１０５の中の他の用例として、「薬ですか」と「薬です」が同様に選択されたとして説明する。

制御部１０１は、用例選択部１０８から送信された用例をＧＵＩ部１０２に送信する。ＧＵＩ部１０２は、選択された用例文を図７に示すように用例候補表示部４０５に表示する（ステップＳ５０４）。

ユーザによって図８に示すように用例候補選択部４０５に表示されている用例の１つ「何か薬はありますか」が選択されると、制御部１０１はその用例を図９に示すように用例結果部４０６にセットする（ステップＳ５０５）。また、ユーザによって用例が選択された後、制御部１０１は単語選択部１０９に用例の中からクラス化されている単語を抽出するように命令する。この例では「薬」が抽出される。制御部１０１は、ＧＵＩ部１０２に単語を送信し、ＧＵＩ部１０２は、用例結果部４０６に表示されている「薬」に下線を引き、ユーザに変更可能な単語であることを表示する。

次に、制御部１０１は、選択した用例の中の単語を変更するか、または翻訳を行うかを決定する（ステップＳ５０６）。すなわち、ユーザによって図１０に示すように用例結果部４０６の文以外の表示領域がクリックされると、制御部１０１は、翻訳を行うと決定する。この場合、決定された用例は制御部１０１に送信され、制御部１０１はそれを言語変換部１１１に送信する。言語変換部１１１は、用例データベース１０５を用いて現在選択している用例の「目的言語：」のフィールドを抽出することにより「Any medicine?」に変換し、変換結果を制御部１０１に送信する（ステップＳ５１２）。制御部１０１は図１１に示すように、変換結果をＧＵＩ部１０２、および音声合成部１１３に送信する。ＧＵＩ部１０２は変換結果を翻訳結果表示部４０７に表示する。一方、音声合成部１１３は、変換結果を音声合成して音声出力部１１４に送信し、スピーカ４０２から出力する（ステップＳ５１２）。

一方、ユーザによって図１２に示すように用例結果部４０６の文の下線を引かれた単語領域がクリックされると、制御部１０１は、用例中の単語を変更すると決定する。この場合、制御部１０１はユーザが指定した単語「薬」を代替単語選択部１１０に送信する。代替単語選択部１１０は、クラス単語情報１０６を参照し、ユーザが指定した単語「薬」と同じクラスのメンバ単語である、「アスピリン」、「かぜ薬」、「トローチ」、「胃腸薬」を抽出し、制御部１０１に送信する（ステップＳ５０７）。

次に、制御部１０１は、ＧＵＩ部１０２に代替単語の一覧を送信し、図１３に示すようにＧＵＩ部１０２は、リストウィンドウ１３０１に代替単語の一覧を表示する（ステップＳ５０８）。

ユーザによって図１４に示すようなリストウィンドウ１３０１に示された代替単語一覧の中から所望の単語である代替単語１４０１がクリックされて選択されると、ＧＵＩ部１０２は代替単語「アスピリン」を取得し、制御部１０１に送信する（ステップＳ５０９）。

制御部１０１は、ユーザによって指定された代替単語「アスピリン」を用いて用例を「何かアスピリンはありますか」に変更する。その後、図１５に示すようにＧＵＩ部１０２は、用例結果表示部４０６に表示されている用例を「何かアスピリンはありますか」に変更して表示する（ステップＳ５１０）。そして、用例の中の単語を変更するか、または翻訳を行うかの決定処理（ステップＳ５０６）に戻る。

以降、必要に応じて同様の処理（ステップＳ５０７からＳ５１０）を繰り返す。ユーザが上記決定処理（ステップＳ５０６）で用例を確定すると、図１６に示すように「何かアスピリンはありますか」が目的言語「Any aspirin?」に変換されて合成音声が出力される。

次に、用例比較部１１２が加わったときの対話支援装置１００の動作について説明する。

以下では図１７に示す用例データベース１０５の他の具体例を使用して説明する。ここで、図１８のようにユーザによってボタン４０８が押されてから「いむしつーでいちょうやくわもらえませんか（医務室、で胃腸薬はもらえませんか？）」と発声されて、音声認識の結果として「売ほしい胃腸薬もらあり」（ウホシイイチョウヤクモラアリ）が得られたとする。なお、用例比較部１１２が加わらない場合は、用例１７０１から用例１７０４までのすべての用例について、それぞれ１つの依存関係が成立する。したがって、用例選択部１０８は４つの用例すべてを候補として出力することになり、ユーザは用例候補選択部４０５に表示される多数の用例を見ながら所望の用例を決定しなければならない。

図１９は用例比較部１１２の動作の流れを示すフローチャートである。なお、用例比較部１１２の動作は、図５における用例の検索処理（ステップＳ５０３）と用例の表示処理（ステップＳ５０４）との間に行われる。

用例比較部１１２は、まず、用例選択部１０８により候補として出力されるすべての用例について、音声認識結果に出現する単語の出現位置を計算する（ステップＳ１９０１）。この出現位置は、単語辞書１０７を使用して用例を読み文字列に変換し、その文字列における位置（文字数）を使用する。例えば、用例１７０１は、図２０（ｂ）に示すようにカタカナの文字列に変換される。「ョ」のような小字は１文字として数えないとすると、音声認識結果に出現する「胃腸薬」は用例１７０１においては、例２００１に示すように位置「０」で出現し、「ほしい」は位置「６」で出現する。同様に、用例比較部１１２は、音声認識結果における各単語の出現位置も計算する。例えば、図２０（ａ）に示すように音声認識結果に含まれる単語「胃腸薬」の位置は「４」である。

次に、用例比較部１１２は、単語の出現位置を読みの文字列の長さで正規化を行う（ステップＳ１９０２）。例えば、用例１７０１の場合は読みの長さは１３文字であり、「胃腸薬」および「ほしい」の出現位置は、それぞれ、０／１３＝０および６／１３＝０．４６として正規化される。同様に、用例比較部１１２は、音声認識結果における各単語の出現位置も正規化する。例えば、図２０（ａ）に示すように音声認識結果に含まれる単語「胃腸薬」の位置は４／１３＝０．３１として正規化される。

次に、用例比較部１１２は、用例中における単語の位置と音声認識結果における単語の位置とから、各用例の音声認識結果に含まれる各単語について、単語のスコアを計算する（ステップＳ１９０３）。単語のスコアは、次式
（単語のスコア）＝（用例上の位置）−（音声認識結果上の位置）
で計算される。例えば、用例１７０３については、図２１の例２１０１に示すように「胃腸薬」のスコアは０．２９−０．３１＝−０．０２となり、「もら」のスコアは０．６５−０．６９＝−０．０４となる。

次に、用例比較部１１２は、各用例の各単語について、計算された単語のスコアに基づいて表示パラメータを算出する（ステップＳ１９０４）。例えば、単語のスコアの絶対値が０．１以下の場合にアンダーラインを付けるようなパラメータがあらかじめ設定されていると、ＧＵＩ部１０２は、この条件に該当する用例１７０３の「胃腸薬」および「もら」と、用例１７０４の「胃腸薬」にアンダーラインを付け、用例の候補は図２２に示すように用例候補選択部４０５に表示する。したがって、ユーザはアンダーラインの付いた用例に誘導され、多数の用例候補の中から用例「医務室で胃腸薬はもらえますか」を簡単かつ速やかに選択することが可能になる。

また、上記説明では、用例比較部１１２は、単語のスコアに基づいて表示パラメータを算出しているが、さらに各用例ごとに文スコア（文一致度）を算出して用例の表示順を変更してもよい。図２３はこの場合の用例比較部１１２の動作の流れを示すフローチャートである。なお、出現位置の計算処理（ステップＳ１９０１）から表示パラメータの算出処理（ステップＳ１９０４）までは上記と同様である。

用例比較部１１２は、各用例の文スコアとして、例えば単語スコアの絶対値が０．１以下である単語の数を計算する（ステップＳ２３０１）。図２１に示す例に対しては図２４に示すような文スコア２４０１が計算される。文スコアの大きい順に用例選択部１０８が出力する用例を並べ替えることにより、図２５に示すように用例候補選択部４０５に表示される。したがって、ユーザは用例候補選択部４０５の先頭から見て、かつ、アンダーラインの付いた用例に誘導され、用例「医務室で胃腸薬はもらえますか」を多数の用例候補の中からさらに簡単かつ速やかに選択することが可能になる。

ここでは、文スコアに基づいて用例を並べ替えを行っているが、これに限られるものではなく、例えば文スコアが所定の値以上になる用例に対して文全体の強調するように表示しても構わない。

次に、用例比較部１１２が原言語として英語を処理する場合の本実施の形態の動作について説明する。なお、この場合の動作の流れは上記に説明した原言語が日本語である場合と同様であるので、図１９に示すフローチャートを用いて説明するが、それぞれの動作内容が相違する。

以下では図２６に示す用例データベース１０５の他の具体例を使用して説明する。対話支援装置１００は英語から日本語への変換を行う。図２７のようにユーザによってボタン４０８が押されてから"Wmm, can I have medicine in some room?"と発声された場合に、音声認識の結果として"want I have medicine in sell room"が得られたとする。なお、用例比較部１１２が加わらない場合は、用例２６０１から用例２６０４までのすべての用例について、それぞれ１つの依存関係が成立する。したがって、用例選択部１０８は４つの用例すべてを候補として出力することになり、ユーザは用例候補選択部４０５に表示される多数の用例を見ながら所望の用例を決定しなければならない。

原言語が英語の場合、用例比較部１１２は、まず、用例選択部１０８により候補として出力されるすべての用例について、音声認識結果に出現する単語の出現位置を計算する（ステップＳ１９０１）。この出現位置は単語辞書１０７を使用して用例を発音記号文字列に変換し、その文字列における位置（文字数）を使用する。例えば、用例２６０１は、図２８（ｂ）に示すように発音記号の文字列に変換される。

ここで、発音記号への変換において、イタリック体で表記される子音、すなわち軽く発声される子音は削除する、というルールを適用するものとする。また、変換された発音記号の文字数の計数については、以下のルールに従って文字の種類に応じて可変して計数する。１）単語間の空白は数えない。２）子音は０．５文字と数える。３）母音（a,iなど）は１文字と数える。４）長母音（a:など）は２文字と数える。

このようなルールに従って計数することによって、音声認識結果に出現する"want"は用例２８０１においては、例２８０１に示すように位置「２」で出現し、"medicine"は位置「４．５」で出現することになる。同様に、用例比較部１１２は、音声認識結果における各単語の出現位置も計算する。例えば、図２８（ａ）に示すように音声認識結果に含まれる単語"medicine"の位置は「６．５」である。

次に、用例比較部１１２は、単語の出現位置を読みの文字列の長さで正規化を行う（ステップＳ１９０２）。例えば、用例２６０１の場合は読みの長さは７．５文字であり、"want"および"medicine"の出現位置は、それぞれ、２／７．５＝０．２７および４．５／７．５＝０．６０として正規化される。同様に、用例比較部１１２は、音声認識結果における各単語の出現位置も正規化する。例えば、図２８（ａ）に示すように音声認識結果に含まれる単語"medicine"の位置は６．５／１６＝０．４６として正規化される。

次に、用例比較部１１２は、用例中における単語の位置と音声認識結果における単語の位置とから、各用例の音声認識結果に含まれる各単語について、単語のスコアを計算する（ステップＳ１９０３）。単語のスコアは、次式
（単語のスコア）＝（用例上の位置）−（音声認識結果上の位置）
で計算される。例えば、用例２６０３については、図２９の例２９０１に示すように"have"のスコアは０．２４−０．２８＝−０．０４となり、"medicine"のスコアは０．３６−０．４６＝−０．１０となる。

次に、用例比較部１１２は、各用例の各単語について、計算された単語のスコアに基づいて表示パラメータを算出する（ステップＳ１９０４）。例えば、単語のスコアの絶対値が０．１０以下の場合にアンダーラインを付けるようなパラメータがあらかじめ設定されていると、ＧＵＩ部１０２は、この条件に該当する用例２６０３の"have"および"medicine"にアンダーラインを付け、用例の候補は図３０に示すように用例候補選択部４０５に表示する。したがって、ユーザはアンダーラインの付いた用例に誘導され、多数の用例候補の中から用例"Can I have medicine in medical room?"を簡単かつ速やかに選択することが可能になる。

また、上記の日本語から英語への変換と同様に、用例比較部１１２は、各用例ごとに文スコア（文一致度）を算出して用例の表示順を変更してもよい。例えば、文スコアを単語スコアの絶対値が０．１０以下である単語の数で計算すると、図２９に示す例に対しては図３１に示すような文スコア３１０１が計算される。文スコアの大きい順に用例選択部１０８が出力する用例を並べ替えることにより、図３２に示すように用例候補選択部４０５に表示される。したがって、ユーザは用例候補選択部４０５の先頭から見て、かつ、アンダーラインの付いた用例に誘導され、用例"Can I have medicine in medical room?"を多数の用例候補の中からさらに簡単かつ速やかに選択することが可能になる。

なお、以上の説明では、ＧＵＩ部１０２に対するユーザの入力をタッチパネル入力、ボタン入力のそれぞれに限定して説明したが、音声認識処理を用いて音声で単語や用例を選択決定することも可能である。また、タッチパネル、ボタン、音声の各入力モダリティを組み合わせて操作することも可能である。また、一例として日本語と英語を取り上げたが、中国語など他の言語についても同様に実施可能であり、本発明は言語に依存しない。

また、音声認識部１０２がその内部で使用する言語モデルは、用例データベース１０５が保持する用例の「原言語：」フィールドの文を中心に構築されている。一般に言語モデルを構築するためには、文を形態素などの最小単位に分割する必要があり、音声認識部１０２の出力はその最小単位の系列となる。最小単位への分割として単語辞書１０７の情報を利用してもよい。また、単語辞書１０７よりもさらに詳細な分割を行って言語モデルを構築し、音声認識部１０２の出力としては単語辞書１０７に登録されている単語に整形してから出力してもよい。

また、用例比較部１１２による表示パラメータの制御は、一致する単語にアンダーラインを付加する以外にも、文字の色の濃淡や文字の点滅など様々な表示方法を利用してもよい。また、用例比較部１１２による文スコアによる用例候補の並べ替えについても、文スコアの低い用例は表示色を薄くするなど、文スコアに応じて用例の単位で表示パラメータを制御してもよい。

また、本実施の形態では、対話支援装置について説明したが、これに限られるものではなく、入力される文に対応する用例を検索する用例検索装置にも適用することができる。

以上のように、本発明に係る対話支援装置は、音声で所望の用例を容易に検索する機能を有し、例えば携帯電話や携帯端末等で入力される原言語に対応する翻訳言語を提示するのに有用である。また、公共の街頭端末や案内端末等の用途にも応用できる。

図１は、本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。図２は、本発明に係る対話支援装置の一実施の形態の用例データベースの構成の一例を示す図である。図３は、本発明に係る対話支援装置の一実施の形態のクラス単語情報の構成の一例を示す図である。を示す図である。図４は、本発明に係る対話支援装置の一実施の形態のＰＤＡの一例を示す図である。図５は、本発明に係る対話支援装置の一実施の形態の用例比較部を除いた動作の流れを示すフローチャートである。図６は、本発明に係る対話支援装置の一実施の形態のＰＤＡに対するユーザ操作の一例を示す図である。図７は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図８は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図９は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１０は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１１は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１２は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１３は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１４は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１５は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１６は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図１７は、本発明に係る対話支援装置の一実施の形態の用例データベースの構成の一例を示す図である。図１８は、本発明に係る対話支援装置の一実施の形態のＰＤＡに対するユーザ操作の一例を示す図である。図１９は、本発明に係る対話支援装置の一実施の形態の用例比較部の動作の流れを示すフローチャートである。図２０は、本発明に係る対話支援装置の一実施の形態の用例比較部における単語出現位置の計算の一例を示す図であり、（ａ）音声認識結果に対する単語出現位置の計算結果、（ｂ）用例に対する単語出現位置の計算結果、を示す図である。図２１は、本発明に係る対話支援装置の一実施の形態の用例比較部における単語スコアの計算の一例を示す図である。図２２は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図２３は、本発明に係る対話支援装置の一実施の形態の用例比較部の動作の流れを示すフローチャートである。図２４は、本発明に係る対話支援装置の一実施の形態の用例比較部における文スコアの計算の一例を示す図である。図２５は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図２６は、本発明に係る対話支援装置の一実施の形態の用例データベースの構成の一例を示す図である。図２７は、本発明の対話支援装置の一実施例のＰＤＡに対するユーザ操作の一例を示す図である。図２８は、本発明に係る対話支援装置の一実施の形態の用例比較部における単語出現位置の計算の一例を示す図であり、（ａ）音声認識結果に対する単語出現位置の計算結果、（ｂ）用例に対する単語出現位置の計算結果、を示す図である。図２９は、本発明に係る対話支援装置の一実施の形態の用例比較部における単語スコアの計算の一例を示す図である。図３０は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。図３１は、本発明に係る対話支援装置の一実施の形態の用例比較部における文スコアの計算の一例を示す図である。図３２は、本発明に係る対話支援装置の一実施の形態のＧＵＩ部の表示内容の一例を示す図である。

符号の説明

１０１制御部
１０２ＧＵＩ部
１０３音声入力部
１０４音声認識部
１０５用例データベース
１０６クラス単語情報
１０７単語辞書
１０８用例選択部
１０９単語選択部
１１０代替単語選択部
１１１言語変換部
１１２用例比較部
１１３音声合成部
１１４音声出力部
２０１用例
２０２用例
２０３用例
２０４用例
３０１クラス単語情報
３０２単語辞書
４０１マイク
４０２スピーカ
４０３ＧＵＩ部
４０４スタイラス
４０５選択部
４０６用例結果表示部
４０７翻訳結果表示部
４０８音声入力開始ボタン
１３０１代替単語のリスト
１４０１ユーザが決定した代替単語
１７０１用例
１７０２用例
１７０３用例
１７０４用例
２００１用例１７０１に対する単語出現位置の計算結果
２１０１用例１７０３に対する単語スコアの計算結果
２４０１文スコアの計算結果

Claims

入力される原言語の音声を認識し、音声認識結果に応じて、前記原言語に対応する翻訳言語を提示する対話支援装置であって、
前記音声認識結果に含まれるキーワードに基づいて原言語の用例を検索する用例検索手段と、
前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出する用例比較手段と、
検索された前記用例を表示するとともに、前記キーワード一致度に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段と
を備えることを特徴とする対話支援装置。
前記用例比較手段は、前記キーワード一致度に基づいて前記キーワードを強調表示する際の表示パラメータを算出し、
前記用例表示制御手段は、前記表示パラメータに基づいて前記用例の中の前記キーワードを強調表示する
ことを特徴とする請求項１記載の対話支援装置。
前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置、および前記音声認識結果における前記キーワードの位置を、読み表記または発音記号の文字列における出現位置で算出し、かつ、前記出現位置を前記読み表記または発音記号の文字列の長さで正規化する
ことを特徴とする請求項１記載の対話支援装置。
前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置、および前記音声認識結果における前記キーワードの位置を、読み表記または発音記号の文字列における出現位置で算出する際に、前記読み表記または前記発音記号の文字数を文字の種類に応じて可変して計数する
ことを特徴とする請求項３記載の対話支援装置。
前記用例比較手段は、前記原言語が日本語である場合、前記文字の種類が前記読み表記の短音、長音、および促音のいずれであるかに応じて文字数を変更して計数する
ことを特徴とする請求項４記載の対話支援装置。
前記用例比較手段は、前記原言語が英語である場合、前記文字の種類が前記発音記号の母音、長母音、および子音のいずれであるかに応じて文字数を変更して計数する
ことを特徴とする請求項４記載の対話支援装置。
前記用例比較手段は、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置との差を、前記キーワード一致度とする
ことを特徴とする請求項３記載の対話支援装置。
前記用例比較手段は、前記用例中に含まれる各キーワードの前記キーワード一致度に基づいて、前記用例に対する文一致度を算出する
ことを特徴とする請求項１記載の対話支援装置。
前記用例比較手段は、前記キーワード一致度が所定値以上である前記キーワードの前記用例中における数を前記文一致度として算出する
ことを特徴とする請求項８記載の対話支援装置。
前記用例表示制御手段は、前記用例を複数表示する際に、前記文一致度に基づいて前記用例の表示順序を決定する
ことを特徴とする請求項９記載の対話支援装置。
前記用例表示制御手段は、前記用例を複数表示する際に、前記文一致度が高い順に前記用例を表示する
ことを特徴とする請求項１０記載の対話支援装置。
前記用例表示制御手段は、前記用例を複数表示する際に、前記文一致度が所定値以上である前記用例の文全体を強調表示する
ことを特徴とする請求項９記載の対話支援装置。
前記用例比較手段は、前記文一致度に基づいて前記用例の文全体を強調表示する際の表示パラメータを算出し、
前記用例表示制御手段は、前記表示パラメータに基づいて前記用例の文全体を強調表示する
ことを特徴とする請求項１２記載の対話支援装置。
入力される文に対応する用例を検索する用例検索装置であって、
前記文に含まれるキーワードに基づいて前記用例を検索する用例検索手段と、
前記用例中における前記文に含まれるキーワードの位置と、前記文における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出する用例比較手段と、
検索された前記用例を表示するとともに、前記キーワード一致度に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段と
を備えることを特徴とする用例検索装置。
対話支援装置によって、入力される原言語の音声を認識し、音声認識結果に応じて、前記原言語に対応する翻訳言語を提示する対話支援方法であって、
前記対話支援装置が備える用例検索手段が、前記音声認識結果に含まれるキーワードに基づいて原言語の用例を検索する用例検索ステップと、
前記対話支援装置が備える用例比較手段が、前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出する用例比較ステップと、
前記対話支援装置が備える用例表示制御手段が、検索された前記用例を表示するとともに、前記キーワード一致度に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御ステップと
を含むことを特徴とする対話支援方法。
入力される原言語の音声を認識し、音声認識結果に応じて、前記原言語に対応する翻訳言語を提示するためのプログラムであって、
前記音声認識結果に含まれるキーワードに基づいて原言語の用例を検索する用例検索手段と、
前記用例中における前記音声認識結果に含まれるキーワードの位置と、前記音声認識結果における前記キーワードの位置とを比較することによって、前記キーワードのキーワード一致度を算出する用例比較手段と、
検索された前記用例を表示するとともに、前記キーワード一致度に基づいて、前記用例の中の前記キーワードを強調表示する用例表示制御手段として、
コンピュータを機能させることを特徴とするプログラム。