JP2010211004A

JP2010211004A - 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム

Info

Publication number: JP2010211004A
Application number: JP2009057743A
Authority: JP
Inventors: Seiichi Miki; 清一三木; Kentaro Nagatomo; 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-03-11
Filing date: 2009-03-11
Publication date: 2010-09-24

Abstract

【課題】辞書を用いた音声認識で、辞書に登録しようとする文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録する辞書作成システムを提供すること。
【解決手段】本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、検索された文字列に隣接する文字列が含まれた登録候補文字列を辞書に登録することを特徴とする辞書作成システムである。
【選択図】図１

Description

本発明は辞書に文字列を登録する辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラムに関する。

音声認識では一般的に、それ自身で意味を表す言葉として認識されるものと、意味を表す言葉として認識できずに音節によって認識されるものとがある。それ自身で意味を表す言葉として認識させたい単語をユーザが辞書に登録することによって、音声認識の確度を高める例が、特許文献１、特許文献２、特許文献３及び特許文献４に記載されている。

特許文献１には、以下に示すような技術が開示されている。

ユーザが音声認識の確度を上げたい単語について、例えば確度を上げたい単語が含まれるテキスト等の別のデータから算出される、その単語の重要度（例えば、ｔｆ−ｉｄｆ値等）や、例えば、人名か地名か等のように単語が属するクラスの情報に基づいて、認識確度を高めるための処理が行われる。また、一方では、認識確度を高めたい単語の読みと類似する読みの単語を抽出して、これらの読みの類似度に基づいて、抽出した単語の認識確度を低くするための処理が行われる。

特許文献２には、以下に示すような技術が開示されている。

例えば、特許文献２の図２に示されているようにユーザが「新宿（しんじゅく）」を辞書に登録しようとしたとき、予め用意された辞書の中から「しんじゅく」と読みが類似する地名を抽出して「新宿」の予想認識率を算出する。特許文献２の図２の例では、「新宿」と読みが類似する地名として「新橋（しんばし）」「御宿（おんじゅく）」「新白河（しんしらかわ）」が抽出され、「新宿」の予想認識率は９０％と算出される。ここで、予想認識率が低い場合は、「新宿」と近い場所の地名という観点から、「新宿」の代わりになりそうな地名である「代々木」「大久保」「新大久保」といった地名を代替候補としてユーザに提示して「新宿」の代わりに辞書に登録するかを判断させる。即ち、ユーザが辞書に登録しようとする単語と、その辞書に既に登録されている単語との読みの類似度に基づいて、その単語を登録するか、代替の単語を登録するかを、ユーザに選択させる。

特許文献３には、以下に示すような技術が開示されている。

例文データから、辞書に追加、修正又は削除する単語が含まれた例文を抽出する。そして、この抽出された例文を、該辞書を用いて解析した結果と、該辞書にその単語を追加、修正又は削除した辞書を用いて解析した結果とを比較して、解析結果の異なる部分をユーザに提示して、ユーザにその単語を辞書に追加、修正又は削除するかどうか判定させる。

特許文献４には、以下に示すような技術が開示されている。

まず、ユーザによって入力された文章を、例えばカタカナやアラビア数字等の文字種で区切る。続いて、区切られた文字列のうち、辞書に登録されていない未知語を抽出すると共に、抽出された未知語の前方又は後方にある、区切られた文字列を取得して、未知語に結合して拡張未知語を生成する。生成された拡張未知語は、未知語に結合された文字列が、既に辞書に登録されている場合に、当該拡張未知語を辞書に登録する。

特開２００７−２２６０９１号公報特開平１１−２０２８８６号公報特開平０８−２８７０５７号公報特開２００６−１５５５２８号公報

特許文献１に係る発明では、どの場合においても、ユーザが音声認識の確度を高めた単語で認識されてしまい、音声認識の確度を高めることができないという問題があった。

特許文献２に係る発明は、音声認識技術を、例えばカーナビに地名を入力する等の音声インタフェースとして応用する際の技術として開発されているため、登録する単語の代替単語として場所を示す単語を提示すればよく、代替の単語が想定しやすい。しかしながら、会議録作成支援システムのように、ユーザが発話内容をコントロールできないような会議音声といった自然発話の音声認識で用いる辞書を作成する場合、登録しようとする単語が誤認識を起こしやすい単語と分かっていても代替単語が想定しづらいため、ユーザに代替単語を提示することができない。たとえ代替単語が想定できたとしても膨大な数の代替単語となってしまい、ユーザが選択して登録した単語では、音声認識の確度を高めることができないという問題があった。

特許文献３に係る発明は、辞書に追加、修正又は削除する単語を含む例文が例文データに存在しない場合は、解析が行えない。従って、解析が行えなければ、音声認識のための辞書を作成することができないという問題があった。

特許文献４に係る発明は、未知語に結合した文字列が、辞書に存在しない文字列である場合は、生成された拡張未知語は辞書に登録されず、実際の発話に出現するような文字列を辞書に登録することができない。従って、該辞書を用いて音声認識を行っても、音声認識の確度を高めることができないという問題があった。

そこで、本発明が解決しようとする課題は、上記問題を解決する技術を提供することであり、辞書を用いた音声認識で、辞書に登録しようとする登録候補文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録する辞書作成システムを提供することである。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成システムである。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列を取得する取得手段と、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成システムである。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成装置である。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列を取得する取得手段と、前記登録候補文字列と前記取得された文字列とを結合させて前記辞書に登録する登録手段とを有することを特徴とする辞書作成装置である。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法である。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を示す文字列を検索し、前記検索された文字列に隣接する文字列を取得し、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法である。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索処理と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録処理とをコンピュータに実行させることを特徴とする辞書作成プログラムである。

上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索処理と、前記検索された文字列に隣接する文字列を取得する取得処理と、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録処理とをコンピュータに実行させることを特徴とする辞書作成プログラムである。

辞書を用いた音声認識で、辞書に登録しようとする登録候補文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録できるという優れた効果を奏する。

本発明の第１の実施形態の構成を示すブロック図である。本発明の第１の実施の形態の動作を示す流れ図である。本発明の第１の実施の形態における文章記憶部に記憶されている文章の例を示す図である。本発明の第２の実施の形態における文章記憶部に記憶されている分割された状態の文章の例を示す図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の動作の別の例を示す流れ図である。本発明の第３の実施の形態の動作を示す流れ図である。

（実施の形態１）
図１は本発明の実施の形態１の辞書作成装置の構成図である。

図１に示すように、辞書作成装置１は、文字列検索部１０と、文字列登録部２０と、文章記憶部１００と、辞書２００とを含む。

文字列検索部１０は、文章記憶部１００に登録されている文章から、辞書に登録しようとする文字列を検索する。辞書に登録しようとする文字列は、単語や熟語や文章等のようにそれ自身で意味を持つ文字列であってもよいし、意味を持たない文字列であってもよい。

文字列登録部２０は、文字列検索部１０が検索した文字列に隣接する文字列を含む登録候補文字列を取得して、辞書２００に登録する。尚、検索した文字列に隣接する文字列は、文章を形態素に分解した形態素列に含まれる形態素を単位にしても良いし、指定した文字数分の文字列としても良い。例えば、文章記憶部１００に記憶されている文章中の登録候補文字列の前後ｎ文字や前後ｎ形態素（ｎは所定の値）を登録候補文字列に隣接する文字列とする等が考えられる。更に、登録候補文字列に隣接する文字列は、それ自身が意味を持つ単語であっても良い。また、文字列登録部２０が取得する隣接文字列は、文字列検索部１０が検索した文字列の前方及び後方の文字列の少なくとも一方である。

文章記憶部１００には、予め用意された文章が少なくとも一以上登録されている。文章記憶部１００に登録されている文章の例を図３に示す。文章記憶部１００に登録されている文章は、テキスト検索技術を用いて、例えばＷｏｒｌｄＷｉｄｅＷｅｂから収集されたテキストや、ユーザが例えば自ら作成する等により登録されたテキスト等が考えられ、これら以外の文章が登録されていても良い。

辞書２００には、例えば、該辞書を用いた音声認識において、認識させようとする文字列が登録される。

尚、本実施の形態では、文章記憶部１００及び辞書２００が辞書作成装置１に含まれている構成を用いて説明するが、文章記憶部１００及び辞書２００がネットワーク上に配置され、辞書作成装置１はネットワークを介して文章記憶部１００及び辞書２００と接続する構成にしても良い。

次に、図２のフロー図を用いて本実施の形態の動作について説明する。尚、以下の動作の説明では、文章記憶部１００に登録されている文章は図３に示されている一例を用いて説明する。また、辞書２００に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。

まず、ユーザにより辞書２００に登録しようとする登録候補文字列「江田」が入力される（図２Ｓ１）。

文字列検索部１０は、文章記憶部１００を参照して、登録候補文字列「江田」を検索する（図２Ｓ２）。

続いて、文字列登録部２０は、文字列検索部１０が文章記憶部１００から検索した文字列に隣接する文字列を含む登録候補文字列を取得する（図２Ｓ３）。

登録候補文字列「江田」に対し、文章記憶部１００に記憶されている文章中に出現する登録候補文字列に隣接する文字列は、図３に示す例において、下線の引かれている「それでは」、「君」、「と」、「さん」、「大臣」、「昨日」、「に」、「すいません」、「関しまして」である。従って、文字列登録部２０によって取得される登録候補文字列は、各々「それでは江田」、「江田君」、「と江田」、「江田さん」、「江田大臣」、「昨日江田」、「江田に」、「すいません江田」、「関しまして江田」となる。

そして、文字列登録部２０によって、登録候補文字列が辞書２００に登録され（図２Ｓ４）、処理を終了する。文字列登録部２０は「それでは江田」、「江田君」、「と江田」、「江田さん」、「江田大臣」、「昨日江田」、「江田に」、「すいません江田」、「関しまして江田」を辞書２００に登録する。

上述のように、本発明は、新規に文字列を登録する際、用例となる文章が記憶されている文章記憶部を参照して得られる登録候補文字列に隣接する文字列を含ませた状態の辞書に登録するように構成されている。この構成により、実際に発話に登場するような登録候補文字列を辞書に登録することができるため、入力された音声の内容を意図している通りに認識することができる。

尚、本実施の形態において、文章記憶部に記憶されている文章として、ＷｏｒｌｄＷｉｄｅＷｅｂから取得された文章を用いれば、文章記憶部に記憶する文章をユーザがわざわざ用意する必要がなく、ユーザの手間を省くことができる。

（実施の形態２）
次に、文章記憶部から登録候補文字列の属性と同じ属性を持つ文字列を検索し、検索された文字列に隣接する文字列を取得し、登録候補文字列と、該検索された文字列とを結合させて辞書に登録する場合の例を用いて説明する。

図６は本発明の実施の形態２の辞書作成装置の構成図である。

実施の形態１との相違点は、図６に示すように、文字列検索部１０が、文章記憶部１００から登録候補文字列の属性と同じ属性を持つ文字列を検索する点と、辞書作成装置１が、文字列検索部１０によって検索された文字列に隣接する文字列を取得する文字列取得部４０を更に有する点と、文字列登録部２０は、文字列取得部４０によって取得された文字列と登録候補文字列とを結合して辞書２００に登録するという点とである。

文章記憶部１００には、予め、形態素解析等を用いて分割された状態の文章が記憶されている。文章記憶部１００に登録されている文章の例を図４に示す。文章を分割して得られた文字列には、図４に示すように、属性情報として、品詞を示す品詞情報、及び、前記分割された文字列によって表される内容を示す意味情報の少なくとも一方が対応付けられている。尚、文章を分割する手段は、形態素解析に限らず、対応付けて記憶させる属性に応じて分割させればよい。また、登録候補文字列の属性は、品詞情報や意味情報に限らず、その文字列の性質によって属性を示すことができれば他のものであっても良い。

次に、本実施の形態の動作について図７を用いて説明する。尚、以下の動作の説明では、文章記憶部１００に登録されている文章は図４に示されている一例を用いて説明する。また、辞書２００に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。

まず、文字列検索部が、登録候補文字列の品詞を示す品詞情報と同じ品詞情報を持つ文字列を文章記憶部から検索する場合について説明する。

ユーザにより辞書２００に登録しようとする登録候補文字列「江田」と、登録候補文字列の品詞情報として、「江田」の品詞である「名詞」とが入力される（図７Ｓ１）。

文字列検索部１０は、文章記憶部１００を参照して、登録候補文字列「江田」の品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列を検索する（図７Ｓ２）。図４に示す例において、登録候補文字列「江田」の品詞を示す品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列は、「山田」、「佐藤」、「東京」である。

続いて、文字列取得部４０は、文字列検索部１０が文章記憶部１００から検索した文字列「山田」、「佐藤」、「東京」に隣接する文字列を取得する（図７Ｓ３）。図４に示す例では、文字列取得部４０は、「江田」の品詞を示す品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列に隣接する文字列として、「優しい」、「さん」、「に」を取得する。

すると、文字列登録部２０は、文字列取得部４０が取得した文字列と登録候補文字列とを結合する（図７Ｓ４）。図４に示す例では、辞書２００に登録しようとする登録候補文字列は、各々「優しい江田」、「江田さん」、「江田に」である。

続いて、文字列登録部２０によって、登録候補文字列が辞書２００に登録され（図７Ｓ５）、処理を終了する。辞書２００に登録される文字列は、「優しい江田」、「江田さん」、「江田に」となる。

次に、文字列検索部が、登録候補文字列の意味情報と同じ意味情報を持つ文字列を文章記憶部から検索する場合について説明する。

ユーザにより辞書２００に登録しようとする登録候補文字列「江田」と、登録候補文字列の意味情報として、「江田」の意味情報である「人名」とが入力される（図７Ｓ１）。

文字列検索部１０は、文章記憶部１００を参照して、登録候補文字列「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列を検索する（図７Ｓ２）。図４に示す例において、登録候補文字列「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列は、「山田」、「佐藤」である。

続いて、文字列取得部４０は、文字列検索部１０が文章記憶部１００から検索した文字列「山田」、「佐藤」に隣接する文字列を取得する（図７Ｓ３）。図４に示す例では、文字列取得部４０は、「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列に隣接する文字列として、「優しい」、「さん」を取得する。

すると、文字列登録部２０は、文字列取得部４０が取得した文字列と登録候補文字列とを結合する（図７Ｓ４）。図４に示す例では、辞書２００に登録しようとする登録候補文字列は、各々「優しい江田」、「江田さん」である。

続いて、文字列登録部２０によって、登録候補文字列が辞書２００に登録され、（図７Ｓ５）処理を終了する。辞書２００に登録される文字列は、「優しい江田」、「江田さん」となる。

上述の本実施の形態では、文字列検索部が、文章記憶部から登録候補文字列の品詞を示す品詞情報と同じ品詞情報を持つ文字列を取得する例と、文字列検索部が、文章記憶部から登録候補文字列の意味情報と同じ意味情報を持つ文字列を取得する例とを分けて説明したが、これに限らず、文字列検索部は、文章記憶部から登録候補文字列の品詞を示す品詞情報と同じ品詞情報であり、尚且つ登録候補文字列の意味情報と同じ意味情報を属性に持つ文字列を検索するようにしても良い。

尚、図８に示すように、文字列検索部は、実施の形態１で説明した処理である、登録候補文字列と同じ文字列を文章記憶部から検索した結果、登録候補文字列と同じ文字列が文章記憶部に存在しない場合に、本実施の形態の処理を行うようにしても良い。

上述のように、本実施の形態では、文章記憶部を参照して得られる、登録候補文字列の属性と同じ属性を持つ文字列に隣接する文字列と登録候補文字列とを結合させて辞書に登録するように構成されている。従って、登録候補文字列と同じ文字列が文章記憶部に存在しない場合でも、実際に発話に登場すると予想される文字列を辞書に登録することができる。また、実施の形態１と実施の形態２との両方の処理を行うようにすれば、実際に発話に登場すると予想される様々な文字列を辞書に登録することができる。

（実施の形態３）
本実施の形態は、実施の形態１の構成に、更に、辞書を用いた音声認識で、該辞書に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度を判定する影響度判定部を含む構成について説明する。

図５は本発明の実施の形態３の辞書登録システムの構成図である。

実施の形態１との相違点は、図５に示すように、辞書２００を用いた音声認識で、辞書２００に登録しようとする登録候補文字列が正しく認識されるかどうかを判定する影響度判定部３０を更に有し、文字列登録部２０は、影響度判定部３０が判定した判定結果に応じて、登録候補文字列を辞書２００に登録するという点である。

まず、影響度判定部３０は、辞書２００を用いた音声認識で、辞書２００に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度が所定値以上であるかを判定する。

続いて、影響度判定部３０は、判定された影響度が所定値以上である場合に、文字列検索部１０に該登録候補文字列と同じ文字列を文章記憶部１００から検索する指示を出力する。

一方、影響度判定部３０は、判定された影響度が所定値以下である場合に、文字列登録部２０に該登録候補文字列を辞書２００に登録する指示を出力する。

辞書２００を用いた音声認識で、辞書２００に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度としては、例えば、登録候補文字列の読みと、辞書２００に登録されている文字列の読みとの類似度（音素文字列のハミング距離や音素の混同しやすさを反映した距離尺度を用いることで算出可能である）や、登録候補文字列の読みの長さを指標として用いる方法等が考えられる。尚、辞書２００を用いた音声認識で、辞書２００に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度を判定するための指標はこれに限らない。例えば、登録候補文字列に隣接する文字列自体が文章記憶部に登録されている文章中に出現する頻度や、登録候補文字列に隣接する文字列自体の品詞を示す品詞情報や、登録候補文字列に隣接する文字列自体によって表される内容を示す意味情報等の属性情報（例えば、付属語は登録候補文字列に隣接する文字列とみなさない等）等を指標として用いても良い。尚、これらの指標は単独で用いても良いし、組み合わせて用いても良い。

また、影響度の算出の際に、例えば、文字列出現頻度を与えるリソース（例えばＮ−ｇｒａｍ確率を保持する等）を用いることで、文字列の読みの情報以外に、文字列の出現頻度を考慮に入れることができる。すなわち、辞書に既に登録されている文字列について、該文字列自体の出現頻度が所定値以下の場合には、該辞書を用いた音声認識で、登録候補文字列が正しく認識される可能性が高いとみなすようにしても良い。

次に、本実施の形態の動作について図９を用いて説明する。尚、以下の動作の説明では、文章記憶部１００に記憶されている文章は図３に示されている一例を用いて説明する。また、辞書２００に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。

まず、登録候補文字列の読みと既に辞書に登録されている文字列の読みとの類似度を用いて影響度を判定する例を用いて説明する。尚、辞書２００には、「江田（えだ）」と同じ読みを持つ「枝（えだ）」が既に登録されているとする。

まず、ユーザにより辞書に登録しようとする登録候補文字列「江田」が入力される（図９Ｓ１）。

続いて、影響度判定部３０は、登録候補文字列「江田」と、既に辞書２００に登録されている各文字列の読みとの類似度を算出し、辞書２００を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度が所定の値以上であるかどうかを判定する（図９Ｓ２）。尚、類似度の算出については、公知の技術を用いるので、詳細な説明は省略する。

影響度判定部３０は、辞書２００を用いた音声認識で、「江田」が「枝」と認識される可能性があるため、影響度が所定の値以上であると判定し、文字列検索部１０に、文字列「江田」を文章記憶部１００から検索する命令を出力する（図９Ｓ４）。

以下の処理については、実施の形態１（図２Ｓ２〜図２Ｓ４）と同様であるため省略する。

一方、影響度判定部３０は、登録候補文字列「江田」と、既に辞書２００に登録されている各文字列の読みとの類似度を算出し、算出された類似度が所定の値以下である場合に、辞書２００を用いた音声認識で、「江田」が正しく認識される可能性があるとして、影響度が所定の値以下であると判定する。

影響度判定部３０は、判定された影響度が所定の値以下である場合、文字列登録部２０に、「江田」を辞書２００に登録する命令を出力する（図９Ｓ３）。

以下の処理については、実施の形態１（図２Ｓ４）と同様であるため省略する。

次に、登録候補文字列の読みの長さを用いて影響度を判定する例を用いて説明する。尚、ユーザによって辞書２００に登録しようとする登録候補文字列が「エイ」だった場合を用いて説明する。また、辞書２００には、既に「英語（えいご）」、「映画（えいが）」等、読みの情報として「えい」を含む文字列が登録されているとする。

まず、ユーザにより辞書２００に登録しようとする登録候補文字列「エイ」が入力される（図９Ｓ１）。

続いて、影響度判定部３０は、登録候補文字列「エイ」の読みの情報である「えい」の文字列の長さが、所定の値以下であるかどうかを判定する。登録候補文字列「エイ」の読みの情報である「えい」の文字列の長さが、所定の値以下であると判定された場合、辞書２００を用いた音声認識で、辞書２００に既に登録されている文字列「映画」が例えば「エイが」等、「英語」が例えば「エイ５」等、登録候補文字列を含む文字列として認識される可能性がある。従って、影響度判定部３０は、辞書２００を用いた音声認識で、登録候補文字列「エイ」が正しく認識されない可能性があるため、影響度が所定の値以上であると判定する。（図９Ｓ２）。

影響度判定部３０は、判定された影響度が所定の値以上である場合、文字列検索部１０に、「エイ」を文章記憶部１００から検索する命令を出力する（図９Ｓ４）。

一方、影響度判定部３０は、登録候補文字列の読みの長さが、所定の値以上であるかどうかを判定する。登録候補文字列の読みの長さが所定の値以上であると判定された場合、辞書２００を用いた音声認識で、辞書２００に既に登録されている文字列が登録候補文字列を含む文字列として認識される可能性が低い。従って、影響度判定部３０は、辞書２００を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度が所定の値以下であると判定する（図９Ｓ２）。

影響度判定部３０は、判定された影響度が所定の値以下である場合、文字列登録部２０に、「エイ」を辞書２００に登録する命令を出力する（図９Ｓ３）。

以下の処理については、実施の形態１（図２Ｓ４）と同様であるため、説明を省略する。

上記の例のように、登録候補文字列の読みの長さが短いと、登録候補文字列の読みが既に辞書に登録されている他の文字列の読みに含まれる可能性が高くなり、該辞書を用いた音声認識で、登録候補文字列の出現頻度が高くなることが予想される。従って、影響度判定部は、登録候補文字列の読みの長さが所定の値以下かどうかを判定する。そして、文字列登録部は、影響度判定部の判定結果に応じて、登録候補文字列を辞書に登録する。

尚、本実施の形態では、実施の形態１に適用する構成を用いて説明したが、これに限らず、実施の形態２に適用する構成としても良い。また、文章記憶部及び辞書は、ネットワーク上に配置されており、辞書作成装置はネットワークを介して文章記憶部及び辞書と接続するようにしても良い。

また、本実施の形態では、登録候補文字列を辞書に登録することで、該辞書を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度の判定方法として、登録候補文字列の読みの長さを用いて判定する方法と、登録候補文字列の読みと既に辞書に登録されている文字列の読みとの類似度を用いて判定する方法とを分けて説明したが、これに限らず、例えば、これら２つの方法を組み合わせる等、複数の判定方法を組み合わせるようにしても良い。

上述のように、本実施の形態では、辞書に登録しようとする登録候補文字列を辞書に登録することで、該辞書を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度判定部を含むように構成されており、文字列登録部は、影響度判定部によって判定された判定結果に応じて、登録候補文字列を辞書に登録している。従って、辞書を用いた音声認識で、登録候補文字列を正しく認識できる辞書を作成することができる。

本発明は、特に音声認識システムといった用途に適用できる。

１辞書作成装置
１０文字列検索部
２０文字列登録部
３０影響度判定部
４０文字列取得部
１００文章記憶部
２００辞書

Claims

少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、
前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段と
を有することを特徴とする辞書作成システム。
前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定する判定手段を更に有し、
前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項１に記載の辞書作成システム。
前記判定手段は、前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項２に記載の辞書作成システム。
前記判定手段は、前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項２又は請求項３に記載の辞書作成システム。
前記検索手段は、文章記憶手段から前記登録候補文字列を検索し、前記登録候補文字列が検索されなかった場合に、前記文章記憶手段から、前記登録候補文字列の属性と同じ属性を持つ文字列を検索することを特徴とする請求項１から請求項４のいずれかに記載の辞書作成システム。
前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられており、
前記検索手段は、前記文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項５に記載の辞書作成システム。
前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられており、
前記検索手段は、前記文章記憶手段から、前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項５又は請求項６に記載の辞書作成システム。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、
前記検索された文字列に隣接する文字列を取得する取得手段と、
前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段と
を有することを特徴とする辞書作成システム。
前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられており、
前記検索手段は、前記文章記憶手段から、前記登録候補文字列の品詞と同じ品詞情報を持つ文字列を検索することを特徴とする請求項８に記載の辞書作成システム。
前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられており、
前記検索手段は、前記文章記憶手段から前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項８又は請求項９に記載の辞書作成システム。
前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定する判定手段を更に有し、
前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項８から請求項１０のいずれかに記載の辞書作成システム。
前記判定手段は、前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項１１に記載の辞書作成システム。
前記判定手段は、前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項１１又は請求項１２に記載の辞書作成システム。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、
前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段と
を有することを特徴とする辞書作成装置。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、
前記検索された文字列に隣接する文字列を取得する取得手段と、
前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段と
を有することを特徴とする辞書作成装置。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、
前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法。
前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定し、
前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項１６に記載の辞書作成方法。
前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項１７に記載の辞書作成方法。
前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項１７又は請求項１８に記載の辞書作成方法。
文章記憶手段から前記登録候補文字列を検索し、前記登録候補文字列が検索されなかった場合に、前記文章記憶手段から、前記登録候補文字列の属性と同じ属性を持つ文字列を検索することを特徴とする請求項１６から請求項１９のいずれかに記載の辞書作成方法。
前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられた文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項２０に記載の辞書作成方法。
前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられた文章記憶手段から、前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項２０又は請求項２１に記載の辞書作成方法。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索し、前記検索された文字列に隣接する文字列を取得し、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法。
前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられた文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項２３に記載の辞書作成方法。
前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられた前記文章記憶手段から前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項２３又は請求項２４に記載の辞書作成方法。
前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定し、
前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項２３から請求項２５のいずれかに記載の辞書作成方法。
前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項２６に記載の辞書作成方法。
前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項２６又は請求項２７に記載の辞書作成方法。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索処理と、
前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録処理と
をコンピュータに実行させることを特徴とする辞書作成プログラム。
少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索処理と、
前記検索された文字列に隣接する文字列を取得する取得処理と、
前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を、前記辞書に登録する登録処理と
をコンピュータに実行させることを特徴とする辞書作成プログラム。