JP2010211004A - 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム - Google Patents

辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム Download PDF

Info

Publication number
JP2010211004A
JP2010211004A JP2009057743A JP2009057743A JP2010211004A JP 2010211004 A JP2010211004 A JP 2010211004A JP 2009057743 A JP2009057743 A JP 2009057743A JP 2009057743 A JP2009057743 A JP 2009057743A JP 2010211004 A JP2010211004 A JP 2010211004A
Authority
JP
Japan
Prior art keywords
character string
dictionary
registration candidate
candidate character
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009057743A
Other languages
English (en)
Inventor
Seiichi Miki
清一 三木
Kentaro Nagatomo
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009057743A priority Critical patent/JP2010211004A/ja
Publication of JP2010211004A publication Critical patent/JP2010211004A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】辞書を用いた音声認識で、辞書に登録しようとする文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録する辞書作成システムを提供すること。
【解決手段】本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、検索された文字列に隣接する文字列が含まれた登録候補文字列を辞書に登録することを特徴とする辞書作成システムである。
【選択図】図1

Description

本発明は辞書に文字列を登録する辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラムに関する。
音声認識では一般的に、それ自身で意味を表す言葉として認識されるものと、意味を表す言葉として認識できずに音節によって認識されるものとがある。それ自身で意味を表す言葉として認識させたい単語をユーザが辞書に登録することによって、音声認識の確度を高める例が、特許文献1、特許文献2、特許文献3及び特許文献4に記載されている。
特許文献1には、以下に示すような技術が開示されている。
ユーザが音声認識の確度を上げたい単語について、例えば確度を上げたい単語が含まれるテキスト等の別のデータから算出される、その単語の重要度(例えば、tf−idf値等)や、例えば、人名か地名か等のように単語が属するクラスの情報に基づいて、認識確度を高めるための処理が行われる。また、一方では、認識確度を高めたい単語の読みと類似する読みの単語を抽出して、これらの読みの類似度に基づいて、抽出した単語の認識確度を低くするための処理が行われる。
特許文献2には、以下に示すような技術が開示されている。
例えば、特許文献2の図2に示されているようにユーザが「新宿(しんじゅく)」を辞書に登録しようとしたとき、予め用意された辞書の中から「しんじゅく」と読みが類似する地名を抽出して「新宿」の予想認識率を算出する。特許文献2の図2の例では、「新宿」と読みが類似する地名として「新橋(しんばし)」「御宿(おんじゅく)」「新白河(しんしらかわ)」が抽出され、「新宿」の予想認識率は90%と算出される。ここで、予想認識率が低い場合は、「新宿」と近い場所の地名という観点から、「新宿」の代わりになりそうな地名である「代々木」「大久保」「新大久保」といった地名を代替候補としてユーザに提示して「新宿」の代わりに辞書に登録するかを判断させる。即ち、ユーザが辞書に登録しようとする単語と、その辞書に既に登録されている単語との読みの類似度に基づいて、その単語を登録するか、代替の単語を登録するかを、ユーザに選択させる。
特許文献3には、以下に示すような技術が開示されている。
例文データから、辞書に追加、修正又は削除する単語が含まれた例文を抽出する。そして、この抽出された例文を、該辞書を用いて解析した結果と、該辞書にその単語を追加、修正又は削除した辞書を用いて解析した結果とを比較して、解析結果の異なる部分をユーザに提示して、ユーザにその単語を辞書に追加、修正又は削除するかどうか判定させる。
特許文献4には、以下に示すような技術が開示されている。
まず、ユーザによって入力された文章を、例えばカタカナやアラビア数字等の文字種で区切る。続いて、区切られた文字列のうち、辞書に登録されていない未知語を抽出すると共に、抽出された未知語の前方又は後方にある、区切られた文字列を取得して、未知語に結合して拡張未知語を生成する。生成された拡張未知語は、未知語に結合された文字列が、既に辞書に登録されている場合に、当該拡張未知語を辞書に登録する。
特開2007−226091号公報 特開平11−202886号公報 特開平08−287057号公報 特開2006−155528号公報
特許文献1に係る発明では、どの場合においても、ユーザが音声認識の確度を高めた単語で認識されてしまい、音声認識の確度を高めることができないという問題があった。
特許文献2に係る発明は、音声認識技術を、例えばカーナビに地名を入力する等の音声インタフェースとして応用する際の技術として開発されているため、登録する単語の代替単語として場所を示す単語を提示すればよく、代替の単語が想定しやすい。しかしながら、会議録作成支援システムのように、ユーザが発話内容をコントロールできないような会議音声といった自然発話の音声認識で用いる辞書を作成する場合、登録しようとする単語が誤認識を起こしやすい単語と分かっていても代替単語が想定しづらいため、ユーザに代替単語を提示することができない。たとえ代替単語が想定できたとしても膨大な数の代替単語となってしまい、ユーザが選択して登録した単語では、音声認識の確度を高めることができないという問題があった。
特許文献3に係る発明は、辞書に追加、修正又は削除する単語を含む例文が例文データに存在しない場合は、解析が行えない。従って、解析が行えなければ、音声認識のための辞書を作成することができないという問題があった。
特許文献4に係る発明は、未知語に結合した文字列が、辞書に存在しない文字列である場合は、生成された拡張未知語は辞書に登録されず、実際の発話に出現するような文字列を辞書に登録することができない。従って、該辞書を用いて音声認識を行っても、音声認識の確度を高めることができないという問題があった。
そこで、本発明が解決しようとする課題は、上記問題を解決する技術を提供することであり、辞書を用いた音声認識で、辞書に登録しようとする登録候補文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録する辞書作成システムを提供することである。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成システムである。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列を取得する取得手段と、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成システムである。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段とを有することを特徴とする辞書作成装置である。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、前記検索された文字列に隣接する文字列を取得する取得手段と、前記登録候補文字列と前記取得された文字列とを結合させて前記辞書に登録する登録手段とを有することを特徴とする辞書作成装置である。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法である。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を示す文字列を検索し、前記検索された文字列に隣接する文字列を取得し、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法である。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索処理と、前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録処理とをコンピュータに実行させることを特徴とする辞書作成プログラムである。
上記課題を解決する本発明は、少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索処理と、前記検索された文字列に隣接する文字列を取得する取得処理と、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録処理とをコンピュータに実行させることを特徴とする辞書作成プログラムである。
辞書を用いた音声認識で、辞書に登録しようとする登録候補文字列を正しく認識させ、かつ、実際に発話に出現するような文字列を辞書に登録できるという優れた効果を奏する。
本発明の第1の実施形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第1の実施の形態における文章記憶部に記憶されている文章の例を示す図である。 本発明の第2の実施の形態における文章記憶部に記憶されている分割された状態の文章の例を示す図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の動作の別の例を示す流れ図である。 本発明の第3の実施の形態の動作を示す流れ図である。
(実施の形態1)
図1は本発明の実施の形態1の辞書作成装置の構成図である。
図1に示すように、辞書作成装置1は、文字列検索部10と、文字列登録部20と、文章記憶部100と、辞書200とを含む。
文字列検索部10は、文章記憶部100に登録されている文章から、辞書に登録しようとする文字列を検索する。辞書に登録しようとする文字列は、単語や熟語や文章等のようにそれ自身で意味を持つ文字列であってもよいし、意味を持たない文字列であってもよい。
文字列登録部20は、文字列検索部10が検索した文字列に隣接する文字列を含む登録候補文字列を取得して、辞書200に登録する。尚、検索した文字列に隣接する文字列は、文章を形態素に分解した形態素列に含まれる形態素を単位にしても良いし、指定した文字数分の文字列としても良い。例えば、文章記憶部100に記憶されている文章中の登録候補文字列の前後n文字や前後n形態素(nは所定の値)を登録候補文字列に隣接する文字列とする等が考えられる。更に、登録候補文字列に隣接する文字列は、それ自身が意味を持つ単語であっても良い。また、文字列登録部20が取得する隣接文字列は、文字列検索部10が検索した文字列の前方及び後方の文字列の少なくとも一方である。
文章記憶部100には、予め用意された文章が少なくとも一以上登録されている。文章記憶部100に登録されている文章の例を図3に示す。文章記憶部100に登録されている文章は、テキスト検索技術を用いて、例えばWorld Wide Webから収集されたテキストや、ユーザが例えば自ら作成する等により登録されたテキスト等が考えられ、これら以外の文章が登録されていても良い。
辞書200には、例えば、該辞書を用いた音声認識において、認識させようとする文字列が登録される。
尚、本実施の形態では、文章記憶部100及び辞書200が辞書作成装置1に含まれている構成を用いて説明するが、文章記憶部100及び辞書200がネットワーク上に配置され、辞書作成装置1はネットワークを介して文章記憶部100及び辞書200と接続する構成にしても良い。
次に、図2のフロー図を用いて本実施の形態の動作について説明する。尚、以下の動作の説明では、文章記憶部100に登録されている文章は図3に示されている一例を用いて説明する。また、辞書200に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。
まず、ユーザにより辞書200に登録しようとする登録候補文字列「江田」が入力される(図2S1)。
文字列検索部10は、文章記憶部100を参照して、登録候補文字列「江田」を検索する(図2S2)。
続いて、文字列登録部20は、文字列検索部10が文章記憶部100から検索した文字列に隣接する文字列を含む登録候補文字列を取得する(図2S3)。
登録候補文字列「江田」に対し、文章記憶部100に記憶されている文章中に出現する登録候補文字列に隣接する文字列は、図3に示す例において、下線の引かれている「それでは」、「君」、「と」、「さん」、「大臣」、「昨日」、「に」、「すいません」、「関しまして」である。従って、文字列登録部20によって取得される登録候補文字列は、各々「それでは江田」、「江田君」、「と江田」、「江田さん」、「江田大臣」、「昨日江田」、「江田に」、「すいません江田」、「関しまして江田」となる。
そして、文字列登録部20によって、登録候補文字列が辞書200に登録され(図2S4)、処理を終了する。文字列登録部20は「それでは江田」、「江田君」、「と江田」、「江田さん」、「江田大臣」、「昨日江田」、「江田に」、「すいません江田」、「関しまして江田」を辞書200に登録する。
上述のように、本発明は、新規に文字列を登録する際、用例となる文章が記憶されている文章記憶部を参照して得られる登録候補文字列に隣接する文字列を含ませた状態の辞書に登録するように構成されている。この構成により、実際に発話に登場するような登録候補文字列を辞書に登録することができるため、入力された音声の内容を意図している通りに認識することができる。
尚、本実施の形態において、文章記憶部に記憶されている文章として、World Wide Webから取得された文章を用いれば、文章記憶部に記憶する文章をユーザがわざわざ用意する必要がなく、ユーザの手間を省くことができる。
(実施の形態2)
次に、文章記憶部から登録候補文字列の属性と同じ属性を持つ文字列を検索し、検索された文字列に隣接する文字列を取得し、登録候補文字列と、該検索された文字列とを結合させて辞書に登録する場合の例を用いて説明する。
図6は本発明の実施の形態2の辞書作成装置の構成図である。
実施の形態1との相違点は、図6に示すように、文字列検索部10が、文章記憶部100から登録候補文字列の属性と同じ属性を持つ文字列を検索する点と、辞書作成装置1が、文字列検索部10によって検索された文字列に隣接する文字列を取得する文字列取得部40を更に有する点と、文字列登録部20は、文字列取得部40によって取得された文字列と登録候補文字列とを結合して辞書200に登録するという点とである。
文章記憶部100には、予め、形態素解析等を用いて分割された状態の文章が記憶されている。文章記憶部100に登録されている文章の例を図4に示す。文章を分割して得られた文字列には、図4に示すように、属性情報として、品詞を示す品詞情報、及び、前記分割された文字列によって表される内容を示す意味情報の少なくとも一方が対応付けられている。尚、文章を分割する手段は、形態素解析に限らず、対応付けて記憶させる属性に応じて分割させればよい。また、登録候補文字列の属性は、品詞情報や意味情報に限らず、その文字列の性質によって属性を示すことができれば他のものであっても良い。
次に、本実施の形態の動作について図7を用いて説明する。尚、以下の動作の説明では、文章記憶部100に登録されている文章は図4に示されている一例を用いて説明する。また、辞書200に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。
まず、文字列検索部が、登録候補文字列の品詞を示す品詞情報と同じ品詞情報を持つ文字列を文章記憶部から検索する場合について説明する。
ユーザにより辞書200に登録しようとする登録候補文字列「江田」と、登録候補文字列の品詞情報として、「江田」の品詞である「名詞」とが入力される(図7S1)。
文字列検索部10は、文章記憶部100を参照して、登録候補文字列「江田」の品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列を検索する(図7S2)。図4に示す例において、登録候補文字列「江田」の品詞を示す品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列は、「山田」、「佐藤」、「東京」である。
続いて、文字列取得部40は、文字列検索部10が文章記憶部100から検索した文字列「山田」、「佐藤」、「東京」に隣接する文字列を取得する(図7S3)。図4に示す例では、文字列取得部40は、「江田」の品詞を示す品詞情報と同じ品詞情報である「名詞」を品詞情報に持つ文字列に隣接する文字列として、「優しい」、「さん」、「に」を取得する。
すると、文字列登録部20は、文字列取得部40が取得した文字列と登録候補文字列とを結合する(図7S4)。図4に示す例では、辞書200に登録しようとする登録候補文字列は、各々「優しい江田」、「江田さん」、「江田に」である。
続いて、文字列登録部20によって、登録候補文字列が辞書200に登録され(図7S5)、処理を終了する。辞書200に登録される文字列は、「優しい江田」、「江田さん」、「江田に」となる。
次に、文字列検索部が、登録候補文字列の意味情報と同じ意味情報を持つ文字列を文章記憶部から検索する場合について説明する。
ユーザにより辞書200に登録しようとする登録候補文字列「江田」と、登録候補文字列の意味情報として、「江田」の意味情報である「人名」とが入力される(図7S1)。
文字列検索部10は、文章記憶部100を参照して、登録候補文字列「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列を検索する(図7S2)。図4に示す例において、登録候補文字列「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列は、「山田」、「佐藤」である。
続いて、文字列取得部40は、文字列検索部10が文章記憶部100から検索した文字列「山田」、「佐藤」に隣接する文字列を取得する(図7S3)。図4に示す例では、文字列取得部40は、「江田」の意味情報と同じ意味情報である「人名」を意味情報に持つ文字列に隣接する文字列として、「優しい」、「さん」を取得する。
すると、文字列登録部20は、文字列取得部40が取得した文字列と登録候補文字列とを結合する(図7S4)。図4に示す例では、辞書200に登録しようとする登録候補文字列は、各々「優しい江田」、「江田さん」である。
続いて、文字列登録部20によって、登録候補文字列が辞書200に登録され、(図7S5)処理を終了する。辞書200に登録される文字列は、「優しい江田」、「江田さん」となる。
上述の本実施の形態では、文字列検索部が、文章記憶部から登録候補文字列の品詞を示す品詞情報と同じ品詞情報を持つ文字列を取得する例と、文字列検索部が、文章記憶部から登録候補文字列の意味情報と同じ意味情報を持つ文字列を取得する例とを分けて説明したが、これに限らず、文字列検索部は、文章記憶部から登録候補文字列の品詞を示す品詞情報と同じ品詞情報であり、尚且つ登録候補文字列の意味情報と同じ意味情報を属性に持つ文字列を検索するようにしても良い。
尚、図8に示すように、文字列検索部は、実施の形態1で説明した処理である、登録候補文字列と同じ文字列を文章記憶部から検索した結果、登録候補文字列と同じ文字列が文章記憶部に存在しない場合に、本実施の形態の処理を行うようにしても良い。
上述のように、本実施の形態では、文章記憶部を参照して得られる、登録候補文字列の属性と同じ属性を持つ文字列に隣接する文字列と登録候補文字列とを結合させて辞書に登録するように構成されている。従って、登録候補文字列と同じ文字列が文章記憶部に存在しない場合でも、実際に発話に登場すると予想される文字列を辞書に登録することができる。また、実施の形態1と実施の形態2との両方の処理を行うようにすれば、実際に発話に登場すると予想される様々な文字列を辞書に登録することができる。
(実施の形態3)
本実施の形態は、実施の形態1の構成に、更に、辞書を用いた音声認識で、該辞書に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度を判定する影響度判定部を含む構成について説明する。
図5は本発明の実施の形態3の辞書登録システムの構成図である。
実施の形態1との相違点は、図5に示すように、辞書200を用いた音声認識で、辞書200に登録しようとする登録候補文字列が正しく認識されるかどうかを判定する影響度判定部30を更に有し、文字列登録部20は、影響度判定部30が判定した判定結果に応じて、登録候補文字列を辞書200に登録するという点である。
まず、影響度判定部30は、辞書200を用いた音声認識で、辞書200に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度が所定値以上であるかを判定する。
続いて、影響度判定部30は、判定された影響度が所定値以上である場合に、文字列検索部10に該登録候補文字列と同じ文字列を文章記憶部100から検索する指示を出力する。
一方、影響度判定部30は、判定された影響度が所定値以下である場合に、文字列登録部20に該登録候補文字列を辞書200に登録する指示を出力する。
辞書200を用いた音声認識で、辞書200に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度としては、例えば、登録候補文字列の読みと、辞書200に登録されている文字列の読みとの類似度(音素文字列のハミング距離や音素の混同しやすさを反映した距離尺度を用いることで算出可能である)や、登録候補文字列の読みの長さを指標として用いる方法等が考えられる。尚、辞書200を用いた音声認識で、辞書200に登録しようとする登録候補文字列が正しく認識されるかどうかを示す影響度を判定するための指標はこれに限らない。例えば、登録候補文字列に隣接する文字列自体が文章記憶部に登録されている文章中に出現する頻度や、登録候補文字列に隣接する文字列自体の品詞を示す品詞情報や、登録候補文字列に隣接する文字列自体によって表される内容を示す意味情報等の属性情報(例えば、付属語は登録候補文字列に隣接する文字列とみなさない等)等を指標として用いても良い。尚、これらの指標は単独で用いても良いし、組み合わせて用いても良い。
また、影響度の算出の際に、例えば、文字列出現頻度を与えるリソース(例えばN−gram確率を保持する等)を用いることで、文字列の読みの情報以外に、文字列の出現頻度を考慮に入れることができる。すなわち、辞書に既に登録されている文字列について、該文字列自体の出現頻度が所定値以下の場合には、該辞書を用いた音声認識で、登録候補文字列が正しく認識される可能性が高いとみなすようにしても良い。
次に、本実施の形態の動作について図9を用いて説明する。尚、以下の動作の説明では、文章記憶部100に記憶されている文章は図3に示されている一例を用いて説明する。また、辞書200に登録しようとする登録候補文字列が「江田」である場合を用いて説明する。
まず、登録候補文字列の読みと既に辞書に登録されている文字列の読みとの類似度を用いて影響度を判定する例を用いて説明する。尚、辞書200には、「江田(えだ)」と同じ読みを持つ「枝(えだ)」が既に登録されているとする。
まず、ユーザにより辞書に登録しようとする登録候補文字列「江田」が入力される(図9S1)。
続いて、影響度判定部30は、登録候補文字列「江田」と、既に辞書200に登録されている各文字列の読みとの類似度を算出し、辞書200を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度が所定の値以上であるかどうかを判定する(図9S2)。尚、類似度の算出については、公知の技術を用いるので、詳細な説明は省略する。
影響度判定部30は、辞書200を用いた音声認識で、「江田」が「枝」と認識される可能性があるため、影響度が所定の値以上であると判定し、文字列検索部10に、文字列「江田」を文章記憶部100から検索する命令を出力する(図9S4)。
以下の処理については、実施の形態1(図2S2〜図2S4)と同様であるため省略する。
一方、影響度判定部30は、登録候補文字列「江田」と、既に辞書200に登録されている各文字列の読みとの類似度を算出し、算出された類似度が所定の値以下である場合に、辞書200を用いた音声認識で、「江田」が正しく認識される可能性があるとして、影響度が所定の値以下であると判定する。
影響度判定部30は、判定された影響度が所定の値以下である場合、文字列登録部20に、「江田」を辞書200に登録する命令を出力する(図9S3)。
以下の処理については、実施の形態1(図2S4)と同様であるため省略する。
次に、登録候補文字列の読みの長さを用いて影響度を判定する例を用いて説明する。尚、ユーザによって辞書200に登録しようとする登録候補文字列が「エイ」だった場合を用いて説明する。また、辞書200には、既に「英語(えいご)」、「映画(えいが)」等、読みの情報として「えい」を含む文字列が登録されているとする。
まず、ユーザにより辞書200に登録しようとする登録候補文字列「エイ」が入力される(図9S1)。
続いて、影響度判定部30は、登録候補文字列「エイ」の読みの情報である「えい」の文字列の長さが、所定の値以下であるかどうかを判定する。登録候補文字列「エイ」の読みの情報である「えい」の文字列の長さが、所定の値以下であると判定された場合、辞書200を用いた音声認識で、辞書200に既に登録されている文字列「映画」が例えば「エイが」等、「英語」が例えば「エイ5」等、登録候補文字列を含む文字列として認識される可能性がある。従って、影響度判定部30は、辞書200を用いた音声認識で、登録候補文字列「エイ」が正しく認識されない可能性があるため、影響度が所定の値以上であると判定する。(図9S2)。
影響度判定部30は、判定された影響度が所定の値以上である場合、文字列検索部10に、「エイ」を文章記憶部100から検索する命令を出力する(図9S4)。
一方、影響度判定部30は、登録候補文字列の読みの長さが、所定の値以上であるかどうかを判定する。登録候補文字列の読みの長さが所定の値以上であると判定された場合、辞書200を用いた音声認識で、辞書200に既に登録されている文字列が登録候補文字列を含む文字列として認識される可能性が低い。従って、影響度判定部30は、辞書200を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度が所定の値以下であると判定する(図9S2)。
影響度判定部30は、判定された影響度が所定の値以下である場合、文字列登録部20に、「エイ」を辞書200に登録する命令を出力する(図9S3)。
以下の処理については、実施の形態1(図2S4)と同様であるため、説明を省略する。
上記の例のように、登録候補文字列の読みの長さが短いと、登録候補文字列の読みが既に辞書に登録されている他の文字列の読みに含まれる可能性が高くなり、該辞書を用いた音声認識で、登録候補文字列の出現頻度が高くなることが予想される。従って、影響度判定部は、登録候補文字列の読みの長さが所定の値以下かどうかを判定する。そして、文字列登録部は、影響度判定部の判定結果に応じて、登録候補文字列を辞書に登録する。
尚、本実施の形態では、実施の形態1に適用する構成を用いて説明したが、これに限らず、実施の形態2に適用する構成としても良い。また、文章記憶部及び辞書は、ネットワーク上に配置されており、辞書作成装置はネットワークを介して文章記憶部及び辞書と接続するようにしても良い。
また、本実施の形態では、登録候補文字列を辞書に登録することで、該辞書を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度の判定方法として、登録候補文字列の読みの長さを用いて判定する方法と、登録候補文字列の読みと既に辞書に登録されている文字列の読みとの類似度を用いて判定する方法とを分けて説明したが、これに限らず、例えば、これら2つの方法を組み合わせる等、複数の判定方法を組み合わせるようにしても良い。
上述のように、本実施の形態では、辞書に登録しようとする登録候補文字列を辞書に登録することで、該辞書を用いた音声認識で、登録候補文字列が正しく認識されるかどうかを示す影響度判定部を含むように構成されており、文字列登録部は、影響度判定部によって判定された判定結果に応じて、登録候補文字列を辞書に登録している。従って、辞書を用いた音声認識で、登録候補文字列を正しく認識できる辞書を作成することができる。
本発明は、特に音声認識システムといった用途に適用できる。
1 辞書作成装置
10 文字列検索部
20 文字列登録部
30 影響度判定部
40 文字列取得部
100 文章記憶部
200 辞書

Claims (30)

  1. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、
    前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段と
    を有することを特徴とする辞書作成システム。
  2. 前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定する判定手段を更に有し、
    前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項1に記載の辞書作成システム。
  3. 前記判定手段は、前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項2に記載の辞書作成システム。
  4. 前記判定手段は、前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項2又は請求項3に記載の辞書作成システム。
  5. 前記検索手段は、文章記憶手段から前記登録候補文字列を検索し、前記登録候補文字列が検索されなかった場合に、前記文章記憶手段から、前記登録候補文字列の属性と同じ属性を持つ文字列を検索することを特徴とする請求項1から請求項4のいずれかに記載の辞書作成システム。
  6. 前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられており、
    前記検索手段は、前記文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項5に記載の辞書作成システム。
  7. 前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられており、
    前記検索手段は、前記文章記憶手段から、前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項5又は請求項6に記載の辞書作成システム。
  8. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、
    前記検索された文字列に隣接する文字列を取得する取得手段と、
    前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段と
    を有することを特徴とする辞書作成システム。
  9. 前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられており、
    前記検索手段は、前記文章記憶手段から、前記登録候補文字列の品詞と同じ品詞情報を持つ文字列を検索することを特徴とする請求項8に記載の辞書作成システム。
  10. 前記文章記憶手段は、前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられており、
    前記検索手段は、前記文章記憶手段から前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項8又は請求項9に記載の辞書作成システム。
  11. 前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定する判定手段を更に有し、
    前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項8から請求項10のいずれかに記載の辞書作成システム。
  12. 前記判定手段は、前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項11に記載の辞書作成システム。
  13. 前記判定手段は、前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項11又は請求項12に記載の辞書作成システム。
  14. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索手段と、
    前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録手段と
    を有することを特徴とする辞書作成装置。
  15. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索手段と、
    前記検索された文字列に隣接する文字列を取得する取得手段と、
    前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録する登録手段と
    を有することを特徴とする辞書作成装置。
  16. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索し、
    前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法。
  17. 前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定し、
    前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項16に記載の辞書作成方法。
  18. 前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項17に記載の辞書作成方法。
  19. 前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項17又は請求項18に記載の辞書作成方法。
  20. 文章記憶手段から前記登録候補文字列を検索し、前記登録候補文字列が検索されなかった場合に、前記文章記憶手段から、前記登録候補文字列の属性と同じ属性を持つ文字列を検索することを特徴とする請求項16から請求項19のいずれかに記載の辞書作成方法。
  21. 前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられた文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項20に記載の辞書作成方法。
  22. 前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられた文章記憶手段から、前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項20又は請求項21に記載の辞書作成方法。
  23. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索し、前記検索された文字列に隣接する文字列を取得し、前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を前記辞書に登録することを特徴とする辞書作成方法。
  24. 前記文章が分割された文字列毎に、前記分割された文字列の品詞を示す品詞情報が対応付けられた文章記憶手段から、前記登録候補文字列の品詞と同じ品詞を示す品詞情報を持つ文字列を検索することを特徴とする請求項23に記載の辞書作成方法。
  25. 前記文章が分割された文字列毎に、前記分割された文字列によって表される内容を示す意味情報が対応付けられた前記文章記憶手段から前記登録候補文字列の意味情報と同じ意味情報を持つ文字列を検索することを特徴とする請求項23又は請求項24に記載の辞書作成方法。
  26. 前記登録候補文字列を前記辞書に登録することで、前記辞書を用いた音声認識の認識率に与える影響度を判定し、
    前記判定結果に応じて、前記登録候補文字列を前記辞書に登録することを特徴とする請求項23から請求項25のいずれかに記載の辞書作成方法。
  27. 前記登録候補文字列の読みの長さを用いて判定することを特徴とする請求項26に記載の辞書作成方法。
  28. 前記登録候補文字列の読みと前記辞書に登録されている文字列の読みとの類似度を用いて判定することを特徴とする請求項26又は請求項27に記載の辞書作成方法。
  29. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列と同じ文字列を検索する検索処理と、
    前記検索された文字列に隣接する文字列が含まれた登録候補文字列を前記辞書に登録する登録処理と
    をコンピュータに実行させることを特徴とする辞書作成プログラム。
  30. 少なくとも一以上の文章が記憶されている文章記憶手段から、辞書に登録しようとする登録候補文字列の属性と同じ属性を持つ文字列を検索する検索処理と、
    前記検索された文字列に隣接する文字列を取得する取得処理と、
    前記登録候補文字列と前記取得された文字列とが結合された登録候補文字列を、前記辞書に登録する登録処理と
    をコンピュータに実行させることを特徴とする辞書作成プログラム。
JP2009057743A 2009-03-11 2009-03-11 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム Pending JP2010211004A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009057743A JP2010211004A (ja) 2009-03-11 2009-03-11 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009057743A JP2010211004A (ja) 2009-03-11 2009-03-11 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム

Publications (1)

Publication Number Publication Date
JP2010211004A true JP2010211004A (ja) 2010-09-24

Family

ID=42971227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009057743A Pending JP2010211004A (ja) 2009-03-11 2009-03-11 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP2010211004A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP2013065284A (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
JP5323652B2 (ja) 類似語決定方法およびシステム
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN112863484B (zh) 韵律短语边界预测模型训练方法和韵律短语边界预测方法
JP5853595B2 (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2019095603A (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
JP7115187B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
JP4407510B2 (ja) 音声合成装置及び音声合成プログラム
JP5159657B2 (ja) 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP4319851B2 (ja) 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム
JP6106616B2 (ja) データベース作成装置、単語検索装置、情報端末、単語検索方法、プログラム
JP6020093B2 (ja) アルファベット読み推定装置
JP5047209B2 (ja) 変換区切り位置に基づいて誤変換を指摘する誤変換指摘装置及びその方法