JP2014048540A

JP2014048540A - 認識辞書作成装置及び認識辞書作成プログラム

Info

Publication number: JP2014048540A
Application number: JP2012192551A
Authority: JP
Inventors: Atsushi Okamura; 敦岡村
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2014-03-17

Abstract

【課題】音声認識辞書の作成に要する手間を軽減しつつ音声認識の性能向上を図る。
【解決手段】認識辞書作成装置は、所定の文法に従って対話の進行手順が記述された対話シナリオを読み込み、この読み込んだ対話シナリオからユーザが発話する語彙を抽出する。語彙が抽出されると、認識辞書作成装置は、この抽出された語彙に対して予め設定されている関連語彙を取得する。認識辞書作成装置は、抽出された語彙と取得した関連語彙とをそれぞれ音声認識対象の語彙として含む音声認識辞書を作成する。
【選択図】図１

Description

本発明の実施形態は、音声認識辞書を作成する認識辞書作成装置及び認識辞書作成プログラムに関する。

ユーザが発話する音声を認識し、その認識結果に基づき予め設定された対話シナリオに従って応答する音声対話装置がある。このような音声対話装置は、例えば対話型ロボットに適用される。

このような音声対話装置において、音声認識の際には、音声認識辞書に登録されている語彙の中から最も近い語句が選ばれる。このため、音声認識辞書に登録されている語彙の種類によって音声認識の性能が左右される。

ところで、言葉には同じ意味を表わすものでも音声的には異なる言葉、いわゆる同義語がある。また、使用される地域によって異なる方言や子供言葉等も、同義語と同様に同じ意味を表わすが音声的には異なる。音声対話装置において、同じ意味を表わす言葉として複数の言葉が存在する場合、ユーザがどの言葉を発話するかは定かではない。このため、音声認識の性能を高めるためには、同じ意味を表わす複数の言葉を全て音声認識辞書に登録しておかなければならず、音声認識辞書の作成が面倒である。

特開２００４−２８７０１６号公報

本発明が解決しようとする課題は、音声認識辞書の作成に要する手間を軽減しつつ音声認識の性能向上を図ることができる認識辞書作成装置を提供しようとするものである。

一実施形態において、認識辞書作成装置は、シナリオ読込手段と、語彙抽出手段と、関連語彙取得手段と、辞書作成手段とを含む。シナリオ読込手段は、所定の文法に従って対話の進行手順が記述された対話シナリオを読み込む。語彙抽出手段は、シナリオ読込手段により読み込んだ対話シナリオからユーザが発話する語彙を抽出する。関連語彙取得手段は、語彙抽出手段により抽出された語彙に対して予め設定されている関連語彙を取得する。辞書作成手段は、語彙抽出手段により抽出された語彙と関連語彙取得手段により取得した関連語彙とをそれぞれ音声認識対象の語彙として含む音声認識辞書を作成する。

一実施形態における音声認識システムの構成を示すブロック図。同義語辞書の一例を示す模式図。対話シナリオの一記述例を示す図。第１の実施形態において、辞書作成部が認識辞書作成プログラムに従って処理する情報処理手順を示す流れ図。第１の実施形態において作成される音声認識語彙リストの一例を示す図。図３に示す対話シナリオの編集後を示す図。第２の実施形態において作成される音声認識語彙リストの一例を示す図。第２の実施形態において、辞書作成部が認識辞書作成プログラムに従って処理する情報処理手順を示す流れ図。

以下、認識辞書作成装置の実施形態について、図面を用いて説明する。なお、実施形態では、認識辞書作成装置とこの装置で作成された音声認識辞書を使用する音声認識装置とを組み合わせた音声認識システムについて説明する。

［第１の実施形態］
はじめに第１の実施形態について、図１〜図６を用いて説明する。
図１は、第１の実施形態である音声認識システム１００の構成を示すブロック図である。音声認識システム１００は、認識辞書作成装置１１０と音声認識装置１２０とを備える。認識辞書作成装置１１０と音声認識装置１２０とは、それぞれが単体の装置として独立しており、必要に応じてＬＡＮ（Local Area Network）等のネットワークで接続される。あるいは、認識辞書作成装置１１０と音声認識装置１２０とは、一つの装置として一体化されており、認識辞書作成モードと対話モードとを切換えられるようになっている。本実施形態では、説明の便宜上、認識辞書作成装置１１０と音声認識装置１２０とが一体化され、ユーザによって認識辞書作成モードと対話モードとが切換えられるタイプの音声認識システム１００とする。

認識辞書作成装置１１０は、シナリオ読込部１１１と、辞書作成部１１２と、シナリオ編集部１１３と、同義語辞書１１４の保存部１１５とを有する。シナリオ読込部１１１、辞書作成部１１２及びシナリオ編集部１１３は、コンピュータの主体をなすプロセッサと、このプロセッサによって実行されるプログラムと、プロセッサによってデータの書込み及び読出しが行われるメモリと、で構成される。

保存部１１５は、ＨＤＤ（Hard Disk Drive）装置またはＳＳＤ（Solid State Drive）装置等の補助記憶部に形成される。なお、保存部１１５は、認識辞書作成装置１１０の側ではなく、音声認識装置１２０の側の補助記憶部に形成されていてもよい。あるいは、認識辞書作成装置１１０及び音声認識装置１２０に対して外部接続された記憶装置上に形成されていてもよい。この場合、記憶装置は、インターネット上にあるＷｅｂサーバに実装され、認識辞書作成装置１１０がＷｅｂブラウザを起動して、記憶装置上の同義語辞書１１４にアクセスするように、音声認識システム１００を構築するとよい。

同義語辞書１１４は、図２に示すように、同義語を有する複数の語彙に対してそれぞれ同義語となる語彙を設定したものである。例えば、語彙「男性用」に対しては、同義語として「メンズ」、「男」、「紳士物」などが設定されている。語彙「女性用」に対しては、同義語として「レディース」、「女」、「婦人物」等が設定されている。語彙「和食」に対しては、同義語として「日本食」等が設定されている。

シナリオ読込部１１１は、対話シナリオ１３０に記述されたテキストデータを読み込む（シナリオ読込手段）。対話シナリオ１３０は、所定の文法に従ってシーン毎に対話の進行手順がテキストデータによって記述されたデータファイルである。対話シナリオ１３０のデータファイルにはファイル名が付されており、このファイル名が対話シナリオ１３０の識別データとなる。あるいは、対話シナリオ１３０のデータファイルにはヘッダデータとして固有のＩＤが設定されており、このＩＤが対話シナリオ１３０の識別データとなる。

辞書作成部１１２は、シナリオ読込部１１１で読み込んだ対話シナリオ１３０からユーザが発話する語彙を抽出する（語彙抽出手段）。また、辞書作成部１１２は、同義語辞書１１４を参照して、抽出された語彙に対して予め設定されている同義語の語彙（関連語彙）を取得する（関連語彙取得手段）。そして辞書作成部１１２は、対話シナリオ１３０から抽出された語彙と同義語辞書１１４から取得した同義語としての語彙とを、それぞれ音声認識対象の語彙として含む音声認識辞書１４０を作成する（辞書作成手段）。

また、辞書作成部１１２は、シナリオ読込部１１１で読み込まれた対話シナリオ１３０から抽出された語彙を含む対話と同じ内容で、当該語彙を同義語辞書１１４から取得した同義語としての語彙に置換した対話データを生成し、この対話データをシナリオ編集部１１３に出力する。シナリオ編集部１１３は、シナリオ読込部１１１で読み込まれた対話シナリオ１３０に、辞書作成部１１２から与えられる対話データを追加して、当該対話シナリオ１３０を編集する（対話シナリオ編集手段）。そしてシナリオ編集部１１３は、編集後の対話シナリオ１３０′を、後述するシナリオ保存部１５０に出力する。

音声認識装置１２０は、音声入力部であるマイク１２１、音声出力部であるスピーカ１２２、タッチパネル等の入力装置１２３の他、シナリオ選択部１２４、辞書切替部１２５、音声認識部１２６、シナリオ再生部１２７、音声合成部１２８を有する。また音声認識装置１２０は、前記シナリオ編集部１１３にて編集された対話シナリオ１３０′のデータファイルを保存するシナリオ保存部１５０と、前記辞書作成部１１２で作成された対話シナリオ１３０別の音声認識辞書１４０を保存する認識辞書保存部１６０とを有する。

シナリオ選択部１２４、辞書切替部１２５、音声認識部１２６、シナリオ再生部１２７、音声合成部１２８は、コンピュータの主体をなすプロセッサと、このプロセッサによって実行されるプログラムと、プロセッサによってデータの書込み及び読出しが行われるメモリとで構成される。

シナリオ保存部１５０と認識辞書保存部１６０とは、ＨＤＤ装置またはＳＳＤ装置等の補助記憶部上に形成される。なお、シナリオ保存部１５０と認識辞書保存部１６０とは、音声認識装置１２０の側ではなく、認識辞書作成装置１１０の側に形成されていてもよい。あるいは、音声認識装置１２０及び認識辞書作成装置１１０に対して外部接続された記憶装置上に形成されていてもよい。この場合、記憶装置は、インターネット上にあるＷｅｂサーバに実装され、認識辞書作成装置１１０と音声認識装置１２０とがそれぞれＷｅｂブラウザを起動して、記憶装置上のシナリオ保存部１５０または認識辞書保存部１６０にアクセスするように、音声認識システム１００を構築してもよい。

シナリオ選択部１２４は、シナリオ保存部１５０に保存されている対話シナリオ１３０′群の中から、入力装置１２３を介して入力されるシナリオ識別データで特定される対話シナリオ１３０′のデータファイルを選択する。辞書切替部１２５は、シナリオ保存部１５０に保存されている各対話シナリオ１３０′と認識辞書保存部１６０に保存されているシナリオ別音声認識辞書１４０とを関連付けた対応表に相当するデータテーブルを備えている。辞書切替部１２５は、このデータテーブルを参照して、認識辞書保存部１６０に保存されているシナリオ別音声認識辞書１４０の中から、シナリオ選択部１２４で選択された対話シナリオ１３０′に対応するシナリオ別音声認識辞書１４０を選択する。

音声認識部１２６は、マイク１２１を介して入力された音声を、辞書切替部１２５によって選択されたシナリオ別音声認識辞書１４０を用いて認識する。シナリオ再生部１２７は、シナリオ選択部１２４によって選択された対話シナリオ１３０′に従って、音声認識部１２６によって認識された音声に対する応答（発話）を得る。音声合成部１２８は、シナリオ再生部１２７によって得られた応答（発話）の音声を合成し、合成された音声をスピーカ１２２から出力する。

所定のシナリオ記述文法に従った対話シナリオ１３０の一記述例を図３に示す。図３に示す対話シナリオ１３０Ａは、複数のシーンＡ１，Ａ２，Ａ３，…の組合せからなる。なお、１つのシーンだけで対話シナリオ１３０Ａが構成されていてもよい。

シーンＡ１には、イベント「ＨＵＭＡＮ＿ＤＥＴＥＣＴ」（人物を検出）に対して、アクション「ＳＰＥＡＫ（音声合成により発話）［何を探していますか］」を実行し、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［洋服］」に対して、アクション「ＳＰＥＡＫ（音声合成により発話）［男性用ですか、女性用ですか］」を実行し、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［レストラン］」に対して、アクション「ＳＰＥＡＫ（音声合成により発話）［何が食べたいですか］」を実行するシナリオが記述されている。また、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［洋服］」に対しては発話後にシーンＡ２に移行し、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［レストラン］」に対しては発話後にシーンＡ３に移行することも、シーンＡ１に記述されている。

シーンＡ２には、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［男性用］」に対して、アクション「ＳＰＥＡＫ（音声合成により発話）［男性用ならＡＡＡがお勧めです］」を実行し、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ（音声認識結果）［女性用］」に対して、アクション「ＳＰＥＡＫ（音声合成により発話）［女性用ならＢＢＢがお勧めです］」を実行するシナリオが記述されている。また、発話後、あるいはイベント「ＢＯＴＴＯＮ＿ＰＵＳＨ［ｎ］（ｎボタン押下）」に対してはシーンＡ１に戻ることも、シーンＡ２に記述されている。
シーンＡ３については説明を省略する。

本実施形態の音声認識システム１００においては、認識辞書作成モードが選択されると、認識辞書作成装置１１０が動作する。このとき、辞書作成部１１２は、図４の流れ図に示す手順の情報処理を実行する。この手順は、装置内のプログラム記憶部、例えばＲＯＭ（Read Only Memory）に記憶される認識辞書作成プログラムにより制御される。

先ず、辞書作成部１１２は、シナリオ読込部１１１によって対話シナリオ１３０が読み込まれるのを待機する（ＳＴ１）。対話シナリオ１３０が読み込まれたならば（ＳＴ１にてＹＥＳ）、辞書作成部１１２は、この対話シナリオ１３０を解析する（ＳＴ２）。そして辞書作成部１１２は、対話シナリオ１３０からユーザが発話する語彙、いわゆる音声認識語彙を抽出する（ＳＴ３）。

図３に示す対話シナリオ１３０Ａのシナリオ記述文法によると、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ」に続く文字列が音声認識語彙に相当する。そこで辞書作成部１１２は、ステップＳＴ２，ＳＴ３にて対話シナリオ１３０を解析して、イベント「ＶＯＩＣＥ＿ＲＥＣＯＧ」に続く文字列を、音声認識語彙として抽出する（語彙抽出手段）。

辞書作成部１１２は、対話シナリオ１３０から音声認識語彙を抽出する毎に、その音声認識語彙で同義語辞書１１４を検索する（ＳＴ４）。そして辞書作成部１１２は、当該音声認識語彙が同義語を有しているか否かを確認する（ＳＴ５）。同義語辞書１１４に当該音声認識語彙が登録されていない場合、当該音声認識語彙は同義語を有していない（ＳＴ５にてＮＯ）。この場合、辞書作成部１１２は、対話シナリオ１３０から抽出した音声認識語彙を、図５に示す語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とにそれぞれ登録する（ＳＴ６）。

同義語辞書１１４を検索した結果、同義語辞書１１４に当該音声認識語彙が登録されていた場合には、当該音声認識語彙は同義語を有する（ＳＴ５にてＹＥＳ）。この場合、辞書作成部１１２は、同義語辞書１１４から当該音声認識語彙に対する同義語の語彙を全て取得する（ＳＴ７：関連語彙取得手段）。そして辞書作成部１１２は、対話シナリオ１３０から抽出した音声認識語彙と同義語辞書１１４から取得した同義語の語彙とを、前記語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とにそれぞれ登録する（ＳＴ８）。

また辞書作成部１１２は、対話シナリオ１３０から音声認識語彙が抽出された対話データを、同義語辞書１１４から取得した同義語の数だけコピーする。そして辞書作成部１１２は、コピーした対話データの音声認識語彙を、それぞれ同義語の語彙に置換して、対話データを生成する。辞書作成部１１２は、同義語の語彙数分の対話データをシナリオ編集部１１３に出力して、対話シナリオ１３０に追加するように指示する（ＳＴ９）。

シナリオ編集部１１３は、シナリオ読込部１１１で読み込まれた対話シナリオ１３０の音声認識語彙が抽出された対話データの後に、辞書作成部１１２から与えられる同義語の語彙数分の対話データを追加して、対話シナリオ１３０を編集する。

辞書作成部１１２は、対話シナリオ１３０の解析を終了したか否かを確認する（ＳＴ１０）。終了していない場合（ＳＴ１０にてＮＯ）、辞書作成部１１２は、ステップＳＴ２に戻って対話シナリオ１３０の解析を継続する。そして、音声認識語彙を抽出したならば（ＳＴ３にてＹＥＳ）、辞書作成部１１２は、その語彙が同義語を有するか否かを確認し（ＳＴ４，５）、同義語を有さない場合にはステップＳＴ６の処理を、同義語を有する場合にはステップＳＴ７，８，９の処理を実行する。

対話シナリオ１３０の解析が終了すると（ＳＴ１０にてＹＥＳ）、辞書作成部１１２は、前記語彙リスト１７０に登録された音声語彙と認識語彙とから、既知の語彙／音声データ変換技術を利用して、シナリオ別の音声認識辞書１４０を作成する（ＳＴ１１：辞書作成手段）。また辞書作成部１１２は、シナリオ読込部１１１によって読み込まれた対話シナリオ１３０の識別データ（例えばファイル名またはヘッダデータのＩＤ）を認識する（ＳＴ１２）。なお、先に対話シナリオ１３０の識別データを認識し、続いてシナリオ別音声認識辞書１４０を作成してもよい。

しかる後、辞書作成部１１２は、ステップＳＴ１１の処理で作成したシナリオ別音声認識辞書１４０のデータファイルを、ステップＳＴ１２の処理で認識したシナリオ識別データとともに，認識辞書保存部１６０に出力する（ＳＴ１３）。以上で、１種類の対話シナリオ１３０に対する辞書作成部１１２の情報処理が終了する。

今、図３に示す内容が記述された対話シナリオ１３０Ａをシナリオ読込部１１１が読み込んだとする。そうすると、辞書作成部１１２は、対話シナリオ１３０の解析を開始する。そして辞書作成部１１２は、先ず、シーンＡ１の２行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ洋服，ＳＰＥＡＫ男性用ですか、女性用ですか；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ２］から、音声認識語彙［洋服］を抽出する。

本実施形態において音声認識語彙［洋服］は、同義語辞書１１４に登録されていない。このため、辞書作成部１１２は、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とに、それぞれ語彙［洋服］を追加する。

次に、辞書作成部１１２は、シーンＡ１の３行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧレストラン，ＳＰＥＡＫ何が食べたいですか；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ３］から、音声認識語彙［レストラン］を抽出する。

本実施形態において音声認識語彙［レストラン］は、同義語辞書１１４に登録されていない。このため、辞書作成部１１２は、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とに、それぞれ語彙［レストラン］を追加する。

次に、辞書作成部１１２は、シーンＡ２の２行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ男性用，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］から、音声認識語彙［男性用］を抽出する。

本実施形態において音声認識語彙［男性用］は、同義語辞書１１４に登録されており、同義語の語彙として［メンズ］、［男］、［紳士物］の３種類が設定されている。このため、辞書作成部１１２は、先ず、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とに、それぞれ語彙［男性用］を追加する。次いで、辞書作成部１１２は、各同義語の語彙［メンズ］、［男］、［紳士物］についても同様に、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とにそれぞれ追加する。

また、辞書作成部１１２は、音声認識語彙［男性用］を含む対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ男性用，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］を、同義語の語彙の数（この場合は３）だけコピーする。そして辞書作成部１１２は、コピーした各対話データの音声認識語彙［男性用］を、それぞれ同義語の語彙［メンズ］、［男］、［紳士物］に置換して、同義語の語彙数分の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧメンズ，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ男，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ紳士物，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］を作成する。

作成された各対話データは、シナリオ編集部１１３に出力される。これにより、シナリオ編集部１１３では、対話シナリオ１３０ＡのシーンＡ２における１行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ男性用，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］の後に、作成された各対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧメンズ，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ男，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ紳士物，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］が追加される。

一方、辞書作成部１１２は、次に、シーンＡ２の３行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ女性用，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］から、音声認識語彙［女性用］を抽出する。

本実施形態において音声認識語彙［女性用］は、同義語辞書１１４に登録されており、同義語の語彙として［レディース］、［女］、［婦人物］の３種類が設定されている。このため、辞書作成部１１２は、先ず、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とに、それぞれ語彙［女性用］を追加する。次いで、辞書作成部１１２は、各同義語の語彙［レディース］、［女］、［婦人物］についても同様に、語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とにそれぞれ追加する。

また、辞書作成部１１２は、音声認識語彙［女性用］を含む対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ女性用，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］を、同義語の語彙の数（この場合は３）だけコピーする。そして辞書作成部１１２は、コピーした各対話データの音声認識語彙［女性用］を、それぞれ同義語の語彙［レディース］、［女］、［婦人物］に置換して、同義語の語彙数分の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧレディース，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ女，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ婦人物，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］を作成する。

作成された各対話データは、シナリオ編集部１１３に出力される。これにより、シナリオ編集部１１３では、対話シナリオ１３０ＡのシーンＡ２における２行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ女性用，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］の後に、作成された各対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧレディース，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ女，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ婦人物，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］が追加される。

こうして、対話シナリオ１３０Ａの解析が終了すると、図５に示す内容の語彙リスト１７０から対話シナリオ１３０Ａに対応した音声認識辞書１４０Ａが作成され、この音声認識辞書１４０Ａが認識辞書保存部１６０に保存される。かくして音声認識辞書１４０Ａには、対話シナリオ１３０Ａから抽出された音声認識語彙［男性用］に加えて、同義語の語彙［メンズ］、［男］、［紳士物］も登録される。同様に、対話シナリオ１３０から抽出された音声認識語彙［女性用］に加えて、同義語の語彙［レディース］、［女］、［婦人物］も登録される。

また、図３に示した対話シナリオ１３０Ａは、シナリオ編集部１１３によって、図６に示す内容の対話シナリオ１３０Ａ′に編集される。すなわち、同義語を含む音声認識語彙が設定されたシーンＡ２の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ男性用，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］の後に、辞書作成部１１２で作成された各対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧメンズ，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ男，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ紳士物，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］が追加される。

同様に、同義語を含む音声認識語彙が設定されたシーンＡ２の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ女性用，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］の後に、辞書作成部１１２で作成された各対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧレディース，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ女，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］、［ＶＯＩＣＥ＿ＲＥＣＯＧ婦人物，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］が追加される。
シナリオ編集部１１３によって編集された対話シナリオ１３０Ａ′は、シナリオ保存部１５０に保存される。

その後、音声認識システム１００において、対話モードが選択されると、音声認識装置１２０が作動する。そして入力装置１２３から、図３に示す内容が記述された対話シナリオ１３０Ａを選択するコマンドが入力されると、シナリオ選択部１２４により、シナリオ保存部１５０に保存されている対話シナリオ１３０群の中から対話シナリオ１３０Ａ′が選択される。また、辞書切替部１２５により、認識辞書保存部１６０に保存されているシナリオ別の音声認識辞書１４０の中から対話シナリオ１３０Ａに対応した音声認識辞書１４０Ａが選択される。

この状態において、図示しない人物検出手段によりユーザが検出されると、音声認識装置１２０では、シナリオ再生部１２７及び音声合成部１２８の作用により「何を探していますか」という音声が合成されて、スピーカ１２２から発話される。

ここで、ユーザがマイク１２１から「洋服」と発話すると、音声認識部１２６では、音声認識辞書１４０Ａを参照して音声認識が行われる。このとき、音声認識辞書１４０Ａには語彙「洋服」が登録されているので、ユーザの音声「洋服」は確実に認識される。その結果、音声認識装置１２０では、「男性用ですか、女性用ですか」という音声が合成されて、スピーカ１２２から発話される。

この発話を聞いたユーザは、「男性用」か「女性用」のいずれかを発話することとなる。また、ユーザによっては「男性用」ではなく同義語の［メンズ］、［男］または［紳士物］と発話する場合もある。同様に、ユーザによっては「女性用」ではなく同義語の［レディース］、［女］または［婦人物］と発話する場合もある。

しかし、いずれの語彙も、音声認識辞書１４０Ａに登録されているので、ユーザの音声は確実に認識される。例えばユーザが「男性用」と発話した場合には、音声認識装置１２０では、「男性用ならＡＡＡがお勧めです」という音声が合成されて、スピーカ１２２から発話される。また、ユーザが「メンズ」と発話した場合にも、音声認識装置１２０では、「男性用ならＡＡＡがお勧めです」という音声が合成されて、スピーカ１２２から発話される。

このように、認識辞書作成装置１１０に対話シナリオ１３０を読み込ませることによって、認識辞書作成装置１１０では、当該対話シナリオ１３０のイベント「音声認識結果［文字列］」から語彙［文字列］が自動的に抽出され、この語彙［文字列］を音声認識語彙とする音声認識辞書１４０がシナリオ別に作成される。また、語彙［文字列］が同義語を有する場合には、この同義語の語彙も同義語辞書１１４から取得され、シナリオ別の音声認識辞書１４０に自動的に登録される。

したがって、音声認識辞書１４０を作成する場合において、辞書作成者は、音声認識語彙に対して同義語となる語彙を意識することなく同義語としての語彙を含む音声認識辞書１４０を作成することができるので、辞書作成者の負担を軽減できる。しかも、認識辞書作成装置１１０で作成される音声認識辞書１４０は、音声認識装置１２０に設定される対話シナリオ１３０と関連性を持たせることができるので、対話シナリオ１３０に対して想定外の語彙が音声認識結果として出力されることがなく、高性能の音声認識を実現できる音声認識システム１００を提供することができる。

［第２の実施形態］
次に、第２の実施形態について、図７，図８を用いて説明する。
前記第１の実施形態では、認識辞書作成装置１１０は、辞書作成部１１２において、同義語を有する音声認識語彙を含む対話データについて、音声認識語彙を同義語の語彙に置換した対話データを作成した。そして認識辞書作成装置１１０は、シナリオ編集部１１３において、作成された対話データを対話シナリオ１３０に追加するべく対話シナリオ１３０の編集を行い、編集後の対話シナリオ１３０′をシナリオ保存部１５０に出力した。

第２の実施形態では、認識辞書作成装置１１０は、対話シナリオ１３０を編集しない。シナリオ保存部１５０には、シナリオ読込部１１１によって読み込まれた対話シナリオ１３０のデータファイルがそのまま保存される。

認識辞書作成装置１１０は、図７に示す語彙リスト１８０のように、音声認識語彙に対して同義語となる語彙については、認識語彙を音声認識語彙に一致させる。つまり、音声認識装置１２０において、マイク１２１から音声［男性用］が入力された場合だけでなく、この語彙［男性用］に対して同義語の語彙［メンズ］、［男］、［紳士物］のいずれが入力された場合も、音声認識部１２６は入力語彙を語彙［男性用］と認識する。したがって、第１の実施形態のように、対話シナリオ１３０に、同義語の語彙を含む対話データを追加する必要はなくなる。

第２の実施形態において、音声認識システム１００の構成は、認識辞書作成装置１１０がシナリオ編集部１１３を省略できる点を除いて第１の実施形態と同様なので、図１を用いるものとし、その説明を省略する。

図８は、第２の実施形態において、認識辞書作成装置１１０の辞書作成部１１２が実行する情報処理の要部手順を示す流れ図である。なお、第１の実施形態と共通する処理ステップには同一符号を付しており、その詳しい説明は省略する。

辞書作成部１１２は、認識辞書作成モードが選択されると、動作を開始する。先ず、辞書作成部１１２は、シナリオ読込部１１１によって対話シナリオ１３０が読み込まれるのを待機する（ＳＴ１）。対話シナリオ１３０が読み込まれたならば（ＳＴ１にてＹＥＳ）、辞書作成部１１２は、この対話シナリオ１３０を解析する（ＳＴ２）。そして辞書作成部１１２は、対話シナリオ１３０からユーザが発話する語彙、いわゆる音声認識語彙を抽出する（ＳＴ３）。

辞書作成部１１２は、対話シナリオ１３０から音声認識語彙を抽出する毎に、その音声認識語彙で同義語辞書１１４を検索する（ＳＴ４）。そして辞書作成部１１２は、当該音声認識語彙が同義語を有しているか否かを確認する（ＳＴ５）。同義語を有していない場合（ＳＴ５にてＮＯ）、辞書作成部１１２は、対話シナリオ１３０から抽出した音声認識語彙を、図７に示す語彙リスト１７０の音声語彙エリア１７１と認識語彙エリア１７２とにそれぞれ登録する（ＳＴ６）。

これに対し、当該音声認識語彙が同義語を有する場合には（ＳＴ５にてＹＥＳ）、辞書作成部１１２は、同義語辞書１１４から当該音声認識語彙に対する同義語の語彙を全て取得する（ＳＴ７：関連語彙取得手段）。そして辞書作成部１１２は、対話シナリオ１３０から抽出した音声認識語彙と同義語辞書１１４から取得した同義語の語彙とを、前記語彙リスト１７０の音声語彙エリア１７１にそれぞれ登録する（ＳＴ２１）。また、辞書作成部１１２は、ステップＳＴ２１の処理で音声認識語彙と同義語の語彙とを登録した音声語彙エリア１７１にそれぞれ対応する認識語彙エリア１８２に、対話シナリオ１３０から抽出した音声認識語彙を登録する（ＳＴ２２）。

辞書作成部１１２は、対話シナリオ１３０の解析を終了したか否かを確認する（ＳＴ１０）。終了していない場合（ＳＴ１０にてＮＯ）、辞書作成部１１２は、ステップＳＴ２に戻って対話シナリオ１３０の解析を継続する。そして、音声認識語彙を抽出したならば（ＳＴ３にてＹＥＳ）、辞書作成部１１２は、その語彙が同義語を有するか否かを確認し（ＳＴ４，５）、同義語を有さない場合にはステップＳＴ６の処理を、同義語を有する場合にはステップＳＴ２１，２２の処理を実行する。

対話シナリオ１３０の解析が終了すると（ＳＴ１０にてＹＥＳ）、辞書作成部１１２は、第１の実施形態のステップＳＴ１１〜ＳＴ１３の処理と同様の処理を実行する。その結果、前記語彙リスト１８０に登録された音声語彙と認識語彙とからシナリオ別の音声認識辞書１４０が作成されて、認識辞書保存部１６０に保存される。

今、図３に示す内容が記述された対話シナリオ１３０Ａをシナリオ読込部１１１が読み込んだとする。そうすると、辞書作成部１１２は、対話シナリオ１３０の解析を開始する。そして辞書作成部１１２が、シーンＡ２の２行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ男性用，ＳＰＥＡＫ男性用ならＡＡＡがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］から、同義語を有する音声認識語彙［男性用］を抽出すると、辞書作成部１１２は、先ず、語彙リスト１８０の音声認識エリア１８１に、音声認識語彙［男性用］と、その同義語の語彙［メンズ］、［男］、［紳士物］とを追加する。また、辞書作成部１１２は、語彙［男性用］、［メンズ］、［男］及び［紳士物］が追加された音声語彙エリア１７１に対応する認識語彙エリア１８２に、音声認識語彙［男性用］を追加する。

同様に、辞書作成部１１２が、シーンＡ２の３行目の対話データ［ＶＯＩＣＥ＿ＲＥＣＯＧ女性用，ＳＰＥＡＫ女性用ならＢＢＢがお勧めです；ＣＨＡＮＧＥ＿ＳＣＥＮＥＡ１］から、同義語を有する音声認識語彙［女性用］を抽出すると、辞書作成部１１２は、先ず、語彙リスト１８０の音声認識エリア１８１に、音声認識語彙［女性用］と、その同義語の語彙［レディース］、［女］、［婦人物］とを追加する。また、辞書作成部１１２は、語彙［女性用］、［レディース］、［女］及び［婦人物］が追加された音声語彙エリア１７１に対応する認識語彙エリア１８２に、音声認識語彙［女性用］を追加する。

そして、対話シナリオ１３０Ａの解析が終了すると、図７に示す内容の語彙リスト１８０から対話シナリオ１３０Ａに対応した音声認識辞書１４０Ａが作成され、この音声認識辞書１４０Ａが認識辞書保存部１６０に保存される。すなわち、音声認識辞書１４０Ａには、対話シナリオ１３０Ａから抽出された音声認識語彙［男性用］に加えて、同義語の語彙［メンズ］、［男］、［紳士物］も登録される。同様に、対話シナリオ１３０から抽出された音声認識語彙［女性用］に加えて、同義語の語彙［レディース］、［女］、［婦人物］も登録される。しかも、音声認識語彙［男性用］に対して同義語の語彙［メンズ］、［男］、［紳士物］については全て、音声認識語彙［男性用］として認識される。同様に、音声認識語彙［女性用］に対して同義語の語彙［レディース］、［女］、［婦人物］については全て、音声認識語彙［女性用］として認識される。

したがって、第２の実施形態においても、音声認識辞書１４０の作成に要する手間を軽減しつつ音声認識の性能向上を図ることができる。また、前述したように、認識辞書作成装置１１０において対話シナリオ１３０を編集する必要がないので、第１の実施形態と比較して認識辞書作成装置１１０の処理負荷を軽減できる効果を奏する。

なお、本発明は、前記実施形態に限定されるものではない。
例えば、前記各実施形態では、対話シナリオ１３０別に音声認識辞書１４０を作成したが、シナリオ読込部１１１で複数の対話シナリオ１３０を読み込み、各対話シナリオ共通の音声認識辞書１４０を作成する場合においても、本発明を適用することができる。

また、前記各実施形態では、同義語辞書１４に登録される関連語彙を同義語を有する語彙に限定したが、同じ意味を表わす言葉として方言や子供言葉がある語彙についても、関連語彙として同義語辞書１４に登録することで、音声認識辞書１４０の作成に要する手間を軽減できる効果を奏し得る。

また、前記各実施形態は、装置内部のプログラム記憶部に発明の機能を実現させる制御プログラムが予め記録されているものとした。しかしこれに限らず、同様のプログラムがネットワークから装置にダウンロードされてもよい。あるいは、記録媒体に記録された同様のプログラムが、装置にインストールされてもよい。記録媒体は、ＣＤ−ＲＯＭ，メモリカード等のようにプログラムを記憶でき、かつ装置が読み取り可能であれば、その形態は問わない。また、プログラムのインストールやダウンロードにより得る機能は、装置内部のＯＳ（オペレーティング・システム）等と協働してその機能を実現させるものであってもよい。

この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…音声認識システム、１１０…認識辞書作成装置、１２０…音声認識装置、１１１…シナリオ読込部、１１２…辞書作成部、１１３…シナリオ編集部、１１４…同義語辞書、１３０…対話シナリオ、１４０…音声認識辞書、１５０…シナリオ保存部、１６０…認識辞書保存部。

Claims

所定の文法に従って対話の進行手順が記述された対話シナリオを読み込むシナリオ読込手段と、
このシナリオ読込手段により読み込んだ前記対話シナリオからユーザが発話する語彙を抽出する語彙抽出手段と、
この語彙抽出手段により抽出された語彙に対して予め設定されている関連語彙を取得する関連語彙取得手段と、
前記語彙抽出手段により抽出された語彙と前記関連語彙取得手段により取得した関連語彙とをそれぞれ音声認識対象の語彙として含む音声認識辞書を作成する辞書作成手段と、
を具備したことを特徴とする認識辞書作成装置。
前記語彙抽出手段により前記対話シナリオから抽出された語彙を含む対話と同じ内容で前記語彙を前記関連語彙取得手段により取得された関連語彙に置換された対話データを前記対話シナリオに追加する対話シナリオ編集手段、
をさらに具備したことを特徴とする請求項１記載の認識辞書作成装置。
前記辞書作成手段は、前記関連語彙取得手段により取得した関連語彙に対しては認識結果を前記語彙抽出手段により抽出された語彙とする音声認識辞書を作成することを特徴とする請求項１記載の認識辞書作成装置。
前記辞書作成手段は、前記シナリオ読込手段により読み込んだ前記対話シナリオ別に前記音声認識辞書を作成することを特徴とする請求項１乃至３のうちいずれか１に記載の認識辞書作成装置。
同じ意味を表わすが音声的には異なる同義語を記憶する同義語辞書、をさらに具備し、
前記関連語彙取得手段は、前記語彙抽出手段により抽出された語彙に対する関連語彙を前記同義語辞書から取得することを特徴とする請求項１乃至４のうちいずれか１に記載の認識辞書作成装置。
コンピュータに、
所定の文法に従って対話の進行手順が記述された対話シナリオからユーザが発話する語彙を抽出する語彙抽出機能と、
この語彙抽出機能により抽出した語彙に対して予め設定されている関連語彙を取得する関連語彙取得機能と、
前記語彙抽出機能により抽出した語彙と前記関連語彙取得機能により取得した関連語彙とをそれぞれ音声認識対象の語彙として含む音声認識辞書を作成する辞書作成機能と、
を実現させるための認識辞書作成プログラム。