JP2008216756A - 語句として新たに認識するべき文字列等を取得する技術 - Google Patents

語句として新たに認識するべき文字列等を取得する技術 Download PDF

Info

Publication number
JP2008216756A
JP2008216756A JP2007055522A JP2007055522A JP2008216756A JP 2008216756 A JP2008216756 A JP 2008216756A JP 2007055522 A JP2007055522 A JP 2007055522A JP 2007055522 A JP2007055522 A JP 2007055522A JP 2008216756 A JP2008216756 A JP 2008216756A
Authority
JP
Japan
Prior art keywords
character string
pronunciation
candidate
frequency
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007055522A
Other languages
English (en)
Other versions
JP5207642B2 (ja
Inventor
Takehito Kurata
岳人 倉田
Shinsuke Mori
信介 森
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007055522A priority Critical patent/JP5207642B2/ja
Priority to US12/043,810 priority patent/US8065149B2/en
Publication of JP2008216756A publication Critical patent/JP2008216756A/ja
Application granted granted Critical
Publication of JP5207642B2 publication Critical patent/JP5207642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

【課題】語句として認識するべき文字列とその発音を、これまでより精度良く取得する。
【解決手段】本発明のシステムは、語句として認識する候補となる候補文字列を入力テキストから複数選択し、選択したそれぞれの候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を複数生成し、生成した発音の各候補をそれぞれ各候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度を示す数値を記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成し、生成した頻度データに基づいて入力音声を音声認識して、入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成し、候補文字列および発音の候補の組合せのうち認識データに含まれる組合せを選択して出力する。
【選択図】図6

Description

本発明は、語句として新たに認識するべき文字列等を取得するシステム、方法およびプログラムに関する。特に、本発明は、音声処理のために、語句として認識するべき文字列および発音の組を取得するシステム、方法およびプログラムに関する。
大語彙連続音声認識( Large Vocabulary Continuous Speech Recognition : LVCSR )システムにおいて、音声を精度良く認識するためには、その音声に含まれる語句を記録した単語辞書、および、各語句の出現頻度等を導き出すことのできる言語モデルが必要となる。そして、音声認識処理の精度を向上させるためには、これらの単語辞書および言語モデルが、認識するべき音声に含まれる語句を網羅的に包含していることが望ましい。一方で、辞書等を記憶する記憶装置の容量や頻度値を算出するCPUの性能は限られているので、これらの単語辞書および言語モデルが、不要な語句を含まない必要最小限なものであることが望ましい。
下記の各文献については後述する。
T. Nagano, S. Mori, and M. Nishimura, "A Stochastic Approach to Phoneme and Accent Estimation," in Proc. INTERSPEECH, 2005. S. Mori and D. Takuma, "Word N-gram Probability Estimation From A Japanese Raw Corpus," in Proc. ICSLP, 2004. IBM ViaVoice for Windows 製品説明、ホームページURL「http://japan.nuance.com/viavoice/」
しかしながら、必要最小限な語句のみを含む辞書を人手で作成しようとすると膨大な手間や費用を要する。即ち例えば、日本語のテキストから辞書を作成しようとすると、まず、単語やフレーズの区切りを解析する作業が必要となる。次に、各単語に正確な発音を与える作業が必要となる。発音とは、発音記号などで表される読み方の情報であり、このような発音の情報を与えるためには、言語に関する専門的な知識が必要な場合がある。このような手間や費用は、特に、特定の専門分野に特化した音声認識を実現しようとした場合に問題となり得る。それは、これまでに蓄積されてきた一般辞書等の情報があまり参考にならず、さらには、需要が小さいため十分な手間や費用を費やすことができないからである。
これに対し、従来、新たに語句として認識するべき文字列とその発音を、ある程度自動的に検出する技術が研究されている(非特許文献1−3を参照)。しかしながら、これらの技術は人手の検出作業を支援するものに過ぎなかったり、あるいは、自動的に検出できたとしても不必要な語句を多く含んでいるために人手の修正作業を多く必要としたりする場合があった。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムであって、語句として認識する候補となる候補文字列を入力テキストから少なくとも1つ選択する候補選択部と、選択したそれぞれの候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、生成した発音の候補をそれぞれ候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度を示す数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する頻度生成部と、生成した頻度データに基づいて入力音声を音声認識して、入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する音声認識部と、候補文字列および発音の候補の組合せのうち認識データに含まれる組合せを選択して出力する出力部とを備えるシステムを提供する。また、当該システムとして情報処理装置を機能させるプログラム、および、当該システムとして情報処理装置により語句を取得させる方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、語句として認識するべき文字列およびその発音が新たに取得される処理の例を示す。この第1例は、文字列および発音の取得に音声認識システム(例えば非特許文献3を参照。)を利用する例である。まず、利用者が音声認識システムに対し「たんぱく質のリン酸化」と発声すると(S10)、音声認識システムは、その発声を入力音声として、その内容を示すテキストを生成する(S20)。この例では、リン酸化という語句が辞書に登録されておらず、または、登録されていたとしてもその出現頻度が極めて低いものとして処理された結果、認識の精度はあまり高くない。このため、「たんぱく質ノリ3回」などと誤認識されている。
利用者は、認識結果であるテキストを見て、誤認識されていたことに気がつくと、誤認識されている部分の正しい文字列を入力してテキストを修正する(S30)。そして、文字列の取得を支援するシステムは、修正後のテキストから、発音の候補を複数生成する(S40)。例えば、当該システムは、漢字の辞書を予め有しており、「酸」という漢字に対応付けられている「san」という発音と「su」という発音とを辞書から読み出す。また、「化」という漢字に対応付けられている「ka」という発音と「ke」という発音を読み出す。読み出したそれぞれの発音を組み合わせると、「rinsanka」、「rinsuka」および「rinsanke」という各発音が発音の候補として生成される。
そして、当該システムは、S10において利用者から取得した入力音声と、これらの各発音の候補とを比較する。その結果、入力音声と最も近い発音の候補「rinsanka」が選択されて、「リン酸化」という文字列に対応付けて出力される(S50)。このように、音声認識システムを利用すれば、音声認識システムの辞書に登録されていない新たな語句について、その文字列および発音を対応付けて取得することができる。
以上、このような第1例の処理によって、新たな語句を取得することもできる。しかしながら、特定の専門分野の辞書を作成しようとする場合など、誤認識される語句が膨大となると、多くの手間や時間が必要となってしまう。
図2は、文字列およびその発音が出現する頻度を算出した例を示す。精度の良い音声処理を実現するためには、語句として認識するべき文字列やその発音のみならず、各語句の出現頻度の情報を利用することが望ましい。図2には、ある先後文字列の次に、それぞれの後続文字列が連続する頻度を示している。例えば、「リン酸」という先後文字列の次に、「化」という後続文字列が連続する頻度は、0.8という数値で表される。この数値は、ある学習用テキストにおいて、「リン酸」という文字列の全出現箇所を列挙したうえで、それに後続する文字列ごとに出現頻度を算出することで算出される。詳しくは非特許文献2を参照されたい。
以上、この方法によっても、文字列の出現頻度を網羅的に計算することはできる。しかしながら、1以上の文字から成る全ての文字列が語句となり得るとして出現頻度を算出すると、その算出結果の情報は膨大となってしまい、それを利用した音声処理の効率を低下させてしまう場合がある。
これに対し、本実施形態に係る語句取得システム30は、新たに語句として認識するべき文字列およびその発音を、効率的に、かつ不必要な語句を除外して高精度に取得することを目的とする。以下、具体的構成を述べる。
図3は、本実施形態に係る語句取得システム30およびその周辺全体の構成を示す。語句取得システム30は、音声とテキストを入力する。これらのテキストおよび音声は、共通する予め定められた分野の事象を内容とするものである。そしてその分野とは、音声認識等の辞書に登録したい語句の出現が予測される分野から選択されることが望ましい。例えば、化学分野の語句を登録したい場合には化学分野のテキストおよび音声を用いる。以下、入力したものを入力音声、および、入力テキストと呼ぶ。
語句取得システム30は、語句として認識する候補となる候補文字列を入力テキストから少なくとも1つ選択する。そして、語句取得システム30は、選択したそれぞれの候補文字列について、その候補文字列の発音の候補を複数生成する。このようにして生成されたデータを候補データ50と呼ぶ。一方、語句取得システム30は、それぞれの候補文字列について、その候補文字列が入力テキストに出現する頻度を算出する。このようにして算出した頻度に基づき各候補文字列が出現する確率を算出したデータを言語モデルデータ40と呼ぶ。言語モデルデータ40は、候補文字列毎にその出現頻度や出現確率を算出した数値であってもよいし、これに代えて、又は、これに加えて、連続する複数の候補文字列の組のそれぞれについて、その候補文字列の組が入力テキスト中で連続して出現する頻度や出現する確率を算出したものであってもよい。
次に、語句取得システム30は、言語モデルデータ40を候補データ50と組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する。たとえば、ある候補文字列が発音の各候補で発音される確率が等しいものとすれば、言語モデルデータ40には候補文字列の出現頻度が含まれているので、候補文字列およびその発音の候補ごとに、その出現頻度を算出することができる。そして、語句取得システム30は、この頻度データに基づいて入力音声を音声認識する。
語句取得システム30は、候補データ50として生成した候補文字列および発音の候補の組の中から、音声認識の処理過程で得られた、文字列および発音の組の組合せを選択して、音声処理装置20に出力する。即ち、出力されるのは、入力音声中に発音が出現しており、かつ、対応する文字列が入力テキスト中に高頻度で出現していた語句となる。音声認識がn−gramモデルを採用している場合、単一の語句の頻度のみならず前後の文脈も含めた頻度が考慮される。即ち、その音声が入力音声中に出現した文脈と、対応する文字列が入力テキスト中に頻出した文脈とが類似することが、語句として認識されるための更なる条件となる。
出力された語句は辞書記憶部25に登録されて、入力音声や入力テキストに対応する分野の音声処理用の辞書として用いられてもよい。例えば、音声処理装置20は、辞書記憶部25を用いて、入力音声を認識して認識結果を示すテキストを出力する。これに代えて、音声処理装置20は、辞書記憶部25を用いて、テキストから合成音声を生成してもよい。この際、辞書記憶部25には必要十分な量の語句しか登録されていないので、音声処理装置20を実現するハードウェア資源を少なくすることができ、かつ認識処理の効率を高めることができる。
図4aは、言語モデルデータ40に含まれる各頻度値の具体例を入力テキストの例と対比して示す。図4bは、言語モデルデータ40の一例を表形式により示す。図4aおよび図4bを参照して、図4bに示す表形式のデータが入力テキストから生成される処理の概要を述べる。日本語などの言語では、テキスト中で各語句を示す文字列は連続しており、語句の区切りはテキストに明示されない。このため、語句として認識するべき文字列を適切に選択するためには、語句の区切りを適切に認識することが望ましい。一方で、語句の区切りが明示されていない以上、テキストのみでは語句の区切りを一意に定めるのは難しい。このため、語句取得システム30は、1以上の文字から成る各文字列を語句であると仮定して、各語句が他の各語句と連続して入力テキスト中に出現する頻度を算出し、その頻度に基づく出現確率の組を言語モデルデータ40とする。
具体的には、図4aの例では、入力テキストに「これをリン酸化という」という文字列が含まれている。そして、「これを」という文字列に「リン酸化」という文字列が連続して入力テキスト中に出現する頻度はp1である。また、「リン酸化」という文字列と「という」という文字列が連続して入力テキスト中に出現する頻度はp2である。一方、「リン酸化という」文字列については「リン酸化/という」という区切りのみならず、「リン酸/化という」という区切りも想定される。この場合、「これを」に「リン酸」が連続する頻度は例えばq1となる。
また、「これをリン酸」という文字列は、「これをリン酸化という」という文字列のみならず、「これをリン酸という」のような文脈の文字列にも表れる。したがって、この頻度q1は、このような多様な文脈のそれぞれにおいて出現する頻度の合計となる。同様に、「これをリン/酸化/という」という語句の区切りも想定される。この場合、「酸化」に「という」が連続する頻度はr2である。この頻度r2は、入力テキスト中で「この化学反応のことを酸化という」のような文脈が現れれば、そのような文脈が現れる頻度も考慮されて算出される。
以上のような頻度値は、先行語ごと、又は、後続語ごとに、合計すると1となるように正規化されて、出現確率値に変換される。たとえば図4bに示すように、「これをリン」という先行語に連続する可能性のあるあらゆる語句のうち(これらの語句の確率値は合計すると1である)、「酸化」という語句が後続する確率は0.05であり、「酸化という」という語句が後続する確率は0.05である。このような確率値を予め算出しておけば、ある語句の次にどのような語句が後続する可能性が高いかを知ることができ、音声認識の精度を高めることができる。
図5は、候補データ50の具体例を示す。日本語の漢字のような表意文字は、複数の発音を有している。したがって、たとえ語句として認識するべき文字列が定まったとしても、その発音を一意に定めるのは難しい場合がある。例えば、候補文字列「リン酸化」について、「酸」という漢字は「サン」という発音の他「ス」という発音を有する。また、「化」という漢字は「カ」という発音の他「バ」や「バケ」という発音を有する。このため、「リン酸化」という候補文字列は、「リンサンカ」、「リンスカ」および「リンサンバ」などの様々な発音の候補を有する。このように、候補文字列の発音の候補を、候補文字列中の文字のみから生成して、生成した発音の候補のそれぞれをその候補文字列に対応付けたデータが候補データ50である。
候補データ50は、候補文字列毎に、それぞれの発音の候補に対応付けて、その候補文字列がその発音の候補により発音される確率値を更に含んでいてもよい。図5の例では、リン酸化、が、リンサンカと発音される確率はs1である。この確率値は、発音生成部310が、候補文字列毎に、対応する発音の候補のそれぞれについて等しい値を対応付けることにより生成されてもよい。即ち、発音の候補が6つであれば、各発音の候補には1/6が対応付けられる。これに代えて、発音生成部310が文字n−gram等の技術を利用して発音の候補を生成した場合には(非特許文献1を参照。)、最も確からしいとして生成された発音の候補には、他の発音の候補と比較してより高い確率値を対応付けてもよいし、文字n-gramに基づく確率に従って確率値を対応付けてもよい。
図6は、語句取得システム30の機能構成を示す。語句取得システム30は、後述のCPU1000、RAM1020およびホストコントローラ1082を協働させることによって、候補選択部300と、発音生成部310と、辞書記憶部315と、頻度生成部320と、頻度記憶部325と、音声認識部330と、出力部340として機能する。また、頻度生成部320、頻度記憶部325、音声認識部330および出力部340は、本発明に係る語句取得部として機能する。候補選択部300は、語句として認識する候補となる候補文字列を入力テキストから少なくとも1つ選択する。候補文字列は、入力テキスト中に含まれる1以上の文字から成る全ての文字列であってもよいし、それらのうちの一部の文字列であってもよい。例えば、ある化学分野の入力テキストからは、「リン酸化」という候補文字列が選択される。何れの文字列を候補文字列として選択すればよいかについては後述する。
発音生成部310は、選択したそれぞれの候補文字列について、その候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、その候補文字列の発音の候補を少なくとも1つ生成する。発音の候補の生成には、例えば発音辞書が用いられてもよい。即ち、辞書記憶部315は、文字を1又は複数の発音に対応付けた発音辞書を記憶している。この発音辞書は、日本語のひらがなやカタカナには原則として1ずつの発音を対応付けている一方、漢字については2以上の発音を対応付けている場合がある。そして、発音生成部310は、候補文字列中の文字を1ずつ走査したうえで、各文字に対応する発音を、発音辞書から検索して組み合わせることで、複数の発音の候補を生成する。発音生成部310は、生成した発音の候補をそれぞれ候補文字列に対応付けた候補データ50を頻度生成部320に出力する。
頻度生成部320は、各語句がテキスト中に出現する頻度を示す数値を予め記録した言語モデルデータ40と、候補データ50を組み合わせて、頻度データを生成する。たとえば、ある候補文字列が発音の各候補で発音される確率が等しいものとすれば、言語モデルデータ40には候補文字列の出現頻度が含まれているので、候補文字列およびその発音の候補ごとに、その出現頻度を算出することができる。より具体的には、ある候補文字列1の出現頻度が数値0.8として言語モデルデータ40に記録されていたとして、その候補文字列1に発音の候補1および2が対応付けられていれば、候補文字列1および発音の候補1の組についてはその半分の数値0.4が、候補文字列2および発音の候補2の組についても数値0.4が、それぞれ対応付けられて、頻度データとして生成される。
また、この言語モデルデータ40は、予め一般的な語句について解析した出現頻度を示すものであってもよいが、好ましくは入力テキストに基づいて生成されてもよい。具体的には、頻度生成部320は、候補データ50に含まれるそれぞれの候補文字列が入力テキストに出現する頻度や、それぞれの候補文字列が他のそれぞれの候補文字列と連続して入力テキストに出現する頻度を算出して、それらの頻度に基づいて言語モデルデータ40を生成してもよい。頻度生成部320は、このようにして言語モデルデータ40と候補データ50とを組み合わせることによって生成した頻度データを、頻度記憶部325に格納する。
次に、音声認識部330は、この頻度データに基づいて入力音声を音声認識する。音声認識は、たとえばn−gramモデルと呼ばれる方式で実現される。具体的には、音声認識部330は、入力音声に含まれる各音素の発音を特定したうえで、特定した発音をその発声順に配列した発音列と、頻度データに含まれる各発音とを比較する。そして、音声認識部330は、発音列に一致する発音の組合せのうち、対応する出現頻度の積を最大化する組合せを頻度データの中から検索する。そして、音声認識部330は、検索された発音の組合せを、頻度データ中でそれに対応する文字列の組合せに対応付けた認識データを生成する。
なお、一般名称や助詞・動詞等を適切に認識できるようにするため、音声認識部330は、外部から予め取得した言語モデルデータをこの頻度データに加えて使用することが望ましい。また、音声認識部330は、入力音声の音声波形を精度良く発音のデータに変換できるようにするため、音声波形のパターンと発音のデータの組についてその出現確率を記録した音響モデルデータを外部から取得して、この頻度データに加えて使用することが必要である。
認識結果を示すこの認識データには、入力音声に含まれる複数の語句のそれぞれについて、当該語句を示す文字列が発音に対応付けられている。出力部340は、候補選択部300が生成した候補文字列および発音生成部310が生成した発音の候補の組合せのうち、この認識データに含まれる組合せを選択して出力する。即ち、例えば、入力音声に「リンサンカ」という発音が含まれており、それが「リン酸化」という文字列として音声認識されたのであれば、候補文字列「リン酸化」について対応付けられていた「リンスカ」などの発音は除外されて、「リンサンカ」という発音のみが「リン酸化」に対応付けて出力される。このように、音声認識の結果から語句を検索することで、入力音声に含まれる発音を有し、かつ、その発音の文脈がその発音に対応する文字列が入力テキストで頻出する文脈と類似する語句を、精度良く取得できる。
図7は、語句取得システム30が語句として認識するべき文字列を選択して出力する処理の流れを示す。まず、まず、候補選択部300は、候補文字列を入力テキストから選択する(S700)。後の処理の効率化のため、候補文字列は語句として認識する可能性の高いものに限定することが望ましい。図8を参照してその一例を述べる。
図8は、S700における具体的処理の一例を示す。候補選択部300は、入力テキストに含まれるある文字列について、その先頭側又は後尾側から順次他の文字列を追加する。たとえば、候補選択部300は、「アデニル酸シクラーゼ」という文字列について、その末尾に「活」を追加して、「アデニル酸シクラーゼ活」という文字列を生成する。また、候補選択部300は、その先頭に「り」を追加して、「りアデニル酸シクラーゼ」という文字列を生成する。このような処理を、追加後の文字列の入力テキストにおける出現頻度が、追加前の文字列の入力テキストにおける出現頻度と比較して低下するまで繰り返す。出現頻度が低下した場合において、当該追加前の文字列の先頭側および後尾側のうち、当該追加語の文字列を生成するために文字を追加した何れか一方は、候補文字列の境界の候補となる。そして、候補選択部300は、当該追加前の文字列を、当該追加前の文字列の先頭側および後尾側の何れもが境界の候補となったことを条件に、候補文字列として選択する。このようにすることで、入力テキスト中にある程度の頻度で出現する文字列を、一定の意味のまとまりを有する可能性があるものとして、候補文字列として選択することができる。なお、候補文字列の選択は、語句として認識するべき文字列を包含するために充分な文字列集合を生成できるものであれば、他の方法で実現されてもよい。
図7に戻る。次に、発音生成部310は、選択したそれぞれの候補文字列について、発音の候補を少なくとも1つ生成する(S710)。発音の候補は、上記のように発音辞書に基づいて生成されてもよいし、文字n−gramと呼ばれる手法により生成されてもよい。文字n−gramと呼ばれる手法は、文字および発音の組のそれぞれについて、互いに同一の内容を示す学習用テキストおよび学習用音声中に、その文字および発音の組が出現する頻度を利用するものである。詳細については非特許文献1を参照されたい。
そして、頻度生成部320は、頻度データを生成するべく以下の処理を行う(S720)。まず、頻度生成部320は、入力テキストに基づいて言語モデルデータ40を生成する。言語モデルデータ40は、入力テキストに含まれる文字列のそれぞれについて、その文字列が入力テキストに出現する頻度、および/または、その文字列が他の文字列と連続して入力テキストに出現する頻度を表したうえで、その頻度に基づいて各候補文字列が出現する確率を算出することで生成される。生成処理の具体的な実現方法は、確率的な単語分割技術として例えば非特許文献2に記載されているから、詳細な説明を省略する。
次に、頻度生成部320は、発音の候補をそれぞれ候補文字列に対応付けた候補データ50を、言語モデルデータ40と組み合わせて頻度データを生成する。頻度データは、候補文字列および発音の組ごとに、その出現頻度を表したものである。図9にその一例を示す。
図9は、S720において生成され、頻度記憶部325に記憶される頻度データの一例を示す。この頻度データは、bi−gramモデルと呼ばれる言語モデルに用いられる。即ち、発音および文字列の連続する2つの組のそれぞれについて、それが入力テキストに出現する頻度を表している。一例として、「これをリン」という文字列と「コレヲリン」という発音を有する先行語に連続して、「酸化」という文字列と「サンカ」という発音の組を有する後続語が出現する確率は、0.05である。この頻度データを参照すれば、入力音声をどのように語句に区切り、かつ、どのような文字列に対応付けると、出現頻度が高い語句の組合せとなるのかを容易に判別することができる。
図7に戻る。次に、音声認識部330は、生成したこの頻度データに基づいて入力音声を音声認識して、入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する(S730)。そして、出力部340は、候補文字列および発音の候補の組合せのうちこの認識データに含まれる組合せを選択して出力する(S740)。図10を参照して、この音声認識処理の一例を述べる。
図10は、S730における音声認識処理の一例を示す。音声認識部330は、入力音声「リンサンカトイウ」に一致する発音の組合せおよび当該発音の組合せに対応する文字列の組合せを頻度データから検索する。この結果、たとえば、「リン(リン)/酸化(サンカ)/という(トイウ)」の組合せと、「リン酸(リンサン)/化(カ)/という(トイウ)」の組合せとが検索される(以下、ある文字列とそれに対応するある発音とを有する語句を、文字列(発音)のように表記する。)。なお、語句の境界が同じでも対応する文字列が異なれば他の組合せとして検出される。たとえば、頻度データにおいて発音「サンカ」が文字列「参加」に対応付けられていれば、同じ語句の区切り「リン/サンカ/トイウ」であっても、発音および文字列の異なる組み合わせとして検出される。
そして、音声認識部330は、発音の組合せおよび文字列の組合せごとに、その組合せの出現頻度を算出する。たとえばbi−gramモデルを例とすると、音声認識部330は、発音の組合せに含まれる隣接した2つの発音の組ごとに、その頻度を頻度データから読み出す。図10の例では、「リン(リン)/酸化(サンカ)/という(トイウ)」において、「リン(リン)/酸化(サンカ)」が連続する頻度p1および「酸化(サンカ)/という(トイウ)」が連続する頻度p2が読み出される。そして、音声認識部330は、読み出したそれぞれの頻度を乗じることで、「リン(リン)/酸化(サンカ)/という(トイウ)」という発音の組合せが出現する頻度P1を算出する。
同様に、「リン酸(リンサン)/化(カ)/という(トイウ)」において、「リン酸(リンサン)/化(カ)」が連続する頻度q1および「化(カ)/という(トイウ)」が連続する頻度q2が読み出される。そして、音声認識部330は、読み出したそれぞれの頻度を乗じることで、「リンサン/カ/トイウ」という発音の組合せが出現する頻度P2を算出する。
音声認識部330は、このようにして算出した頻度の積を最大化する発音および文字列の組合せを選択する。即ち図10の例では、音声認識部330は、P1およびP2を比較して大きい方に対応する発音および文字列の組合せを選択して、認識データとして出力する。以上、頻度データを用いれば、同一の入力音声について、複数の単語区切りや複数の文字列の候補が存在する場合であっても、文脈中における語句の出現頻度を反映して適切な区切り・文字列を出力することができる。
なお、音声認識処理の目的は音声の内容を示すテキストを一意に定めることであるから、出現頻度の積を最大化するテキストが認識データとして生成されることが望ましい。一方で本実施形態に係る語句取得システム30は、入力音声中の発音を、文脈を考慮してある程度良く使われる文字列に対応付けて出力することを目的とする。このため、出力するべき発音および文字列の組は、出現頻度の積が最大の組合せに含まれていなくとも、その積がある程度高い組み合わせに含まれていればよい。すなわち、出力部340は、候補文字列および発音の候補の中から、音声認識部330において算出した出現頻度の積が大きい方から予め定められた基準数の文字列および発音の組合せに含まれるものを選択して出力してもよい。
一方、出力する語句の数を制限して語句取得の精度を向上させるためには、語句が認識データ中に基準回数以上出現することを条件としてもよい。即ち、出力部340は、認識データに含まれる候補文字列および発音の候補の組合せを、当該組合せが予め定められた基準回数以上認識データに出現することを条件に出力してもよい。
以上、本実施形態に係る語句取得システム30によれば、同様の又は互いに近似する分野の入力音声と入力テキストがあれば、それらが同一の内容を同一の順序で述べたようなものでなくとも、その分野で用いられる語句を示す文字列およびその発音を自動的に取得することができる。語句の発音は入力音声の中から、語句の文字列は入力テキストの中から選択される。語句として取得する候補文字列および対応する発音の候補は、当該発音の候補が入力音声中に出現する文脈および当該候補文字列が入力テキスト中に出現する文脈が予め定められた基準以上近似することを条件に選択される。これにより、不必要な語句断片は含まれにくくなり、選択される語句集合の品質を高めることができる。
本願発明者が実証したところによれば、実際に専門的な用語を充分に取得できていることが確かめられた。また、取得した語句集合は従来型の技術で自動生成した辞書と比較して半分以下のデータサイズであり、さらには、音声認識用の辞書として利用すると従来よりも性能が向上することが確かめられた。
続いて、入力テキストから上記言語モデルデータ40を生成するのではなく、一般分野の語句について予め生成された言語モデルデータを言語モデルデータ40として利用する処理を変形例として説明する。
図11は、本実施形態の変形例における音声認識処理の一例を示す。まず、頻度生成部320は、言語モデルデータ40として一般分野の語句について生成された言語モデルデータを取得する。この言語モデルデータは、語句集合の中から選択した2以上の語句の組ごとに、当該語句の組がテキスト中に連続して出現する頻度を示す数値(例えば出現確率)記録したものである。このテキストが入力テキストではなく予め準備された学習用テキストである点が、上記図1−図10を参照して説明した実施形態とは異なる。従って、この言語モデルデータ40は入力テキスト中に出現するような専門的な語句を含んでいない。
このような専門的な語句があっても文全体としての認識を適切に行えるようにするため、言語モデルデータ40は、語句として認識不能な何らかの文字列を示す未知語シンボルについて、その出現頻度の情報を記録している。詳細には、言語モデルデータ40は、未知語シンボルを語句とみなして、未知語シンボルと実際の語句とを含む語句集合について、それに含まれる語句の組が連続して出現する頻度を記録している。図11の例では、言語モデルデータ40は、「これを」という文字列に何らかの認識不能な文字列が連続する頻度としてr1を記録している。
そして、頻度生成部320は、言語モデルデータ40に含まれる各未知語シンボルに、それぞれの候補文字列を対応付けることで、頻度データを生成する。たとえば、この頻度データにおいて、文字列「これを」に、「リン酸化(リンサンカ)」が連続する頻度はr1であり、文字列「これを」に、「リン酸(リンサン)」が連続する頻度もr1である。即ち、何れの文字列であってもそれがこの頻度データに含まれていない文字列であれば、「これを」に連続する頻度はr1である。
そして、音声認識部330は、このようにして生成した頻度データに基づいて入力音声を音声認識する。たとえば、「コレヲリンサンカトイウ」という発音列は、「これを(コレヲ)/未知語シンボル/という」という語句の組合せと、「これを(コレヲ)/未知語シンボル/化(カ)/という(トイウ)」とう語句の組合せに一致する。これらの未知語シンボルは同一であるが、第1の組合せでは「リンサンカ」という発音に一致しており、第2の組合せでは「リンサン」という発音に一致している。即ち、音声認識部330は、「未知語シンボル」についてはどのような発音にも一致すると判断する。なお、「未知語シンボル」は音素数などにより分類して設けられていてもよい。この場合、音声認識部330は、ある音素数の未知語シンボルについてはその音素数の発音のみに一致すると判断し、他の音素数の未知語シンボルには一致しないと判断する。
そして、音声認識部330は、それぞれの組合せについて出現頻度の積を算出する。詳細には、「これを(コレヲ)/未知語シンボル/という」について、「これを(コレヲ)」に「未知語シンボル」が連続する頻度r1と、「未知語シンボル」に「という(トイウ)」が連続する頻度r2の積Q1が算出される。同様に、「これを(コレヲ)/未知語シンボル/化(カ)/という(トイウ)」について、「これを(コレヲ)」に「未知語シンボル」が連続する頻度r1と、「未知語シンボル」に「化(か)」が連続する頻度s1と、「化(か)」に「という(トイウ)」が連続する頻度s2との積Q2が算出される。そして、音声認識部330は、頻度の積を最大化する文字列および発音の組合せを認識データとして出力する。
以上、この変形例によれば、入力音声に含まれる発音が、認識不能な文字列が出現し易い文脈に出現したことを条件に、その発音および文字列を新たに取得するべき語句として取得することができる。この変形例によれば、入力テキストから言語モデルデータを生成する処理を省略できるので、処理の効率を向上させることができる。
図12は、語句取得システム30として機能するコンピュータ500のハードウェア構成の一例を示す。コンピュータ500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、コンピュータ500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ500の起動時にCPU1000が実行するブートプログラムや、コンピュータ500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
コンピュータ500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出されコンピュータ500にインストールされて実行される。プログラムがコンピュータ500等に働きかけて行わせる動作は、図1から図11において説明した語句取得システム30における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ500に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、語句として認識するべき文字列およびその発音が新たに取得される処理の例を示す。 図2は、文字列およびその発音が出現する頻度を算出した例を示す。 図3は、本実施形態に係る語句取得システム30およびその周辺全体の構成を示す。 図4aは、言語モデルデータ40に含まれる各頻度値の具体例を入力テキストの例と対比して示す。 図4bは、言語モデルデータ40の一例を表形式により示す。 図5は、候補データ50の具体例を示す。 図6は、語句取得システム30の機能構成を示す。 図7は、語句取得システム30が語句として認識するべき文字列を選択して出力する処理の流れを示す。 図8は、S700における具体的処理の一例を示す。 図9は、S720において生成され、頻度記憶部325に記憶される頻度データの一例を示す。 図10は、S730における音声認識処理の一例を示す。 図11は、本実施形態の変形例における音声認識処理の一例を示す。 図12は、語句取得システム30として機能するコンピュータ500のハードウェア構成の一例を示す。
符号の説明
20 音声処理装置
25 辞書記憶部
30 語句取得システム
40 言語モデルデータ
50 候補データ
300 候補選択部
310 発音生成部
315 辞書記憶部
320 頻度生成部
325 頻度記憶部
330 音声認識部
340 出力部
500 コンピュータ

Claims (12)

  1. 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムであって、
    語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
    選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
    生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する頻度生成部と、
    生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する音声認識部と、
    前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力する出力部と
    を備えるシステム。
  2. 前記頻度生成部は、それぞれの前記候補文字列が前記入力テキストに出現する頻度を算出し、当該頻度に基づいてそれぞれの前記候補文字列が出現する確率を算出することで、前記言語モデルデータを生成し、生成した前記言語モデルデータと、前記発音の候補をそれぞれ前記候補文字列に対応付けたデータとを組み合わせて、前記頻度データを生成する
    請求項1に記載のシステム。
  3. 前記頻度生成部は、2以上の前記候補文字列の組ごとに、当該候補文字列の組が前記入力テキストに連続して出現する確率を算出して、前記言語モデルデータとして生成する
    請求項2に記載のシステム。
  4. 前記頻度生成部は、語句として認識不能な何らかの文字列を示す未知語シンボルを含む語句集合の中から選択した2以上の語句の組ごとに、当該語句の組がテキスト中に連続して出現する頻度を示す数値を記録した前記言語モデルデータとして取得し、前記未知語シンボルにそれぞれの前記候補文字列を対応付けることで、前記頻度データを生成する
    請求項1に記載のシステム。
  5. 前記候補選択部は、前記入力テキストに含まれるある文字列に先頭側または末尾側から順次他の文字を追加する処理を、追加後の文字列の前記入力テキストにおける出現頻度が、追加前の文字列の前記入力テキストにおける出現頻度と比較して低下するまで繰り返し、当該追加前の文字列を前記候補文字列として選択する
    請求項1に記載のシステム。
  6. 前記発音生成部は、前記候補文字列のそれぞれについて、当該候補文字列に含まれるそれぞれの文字の発音を、文字を1または複数の発音に対応付けた発音辞書から検索して組み合わせることで、複数の発音の候補を生成する
    請求項1に記載のシステム。
  7. 前記出力部は、前記認識データに含まれる前記候補文字列および前記発音の候補の組合せを、当該組合せが予め定められた基準回数以上前記認識データに出現することを条件に出力する
    請求項1に記載のシステム。
  8. 前記音声認識部は、前記頻度データに基づいて、前記入力音声に一致する発音の組合せおよび当該発音の組合せに対応する文字列の組合せのうち、発音および文字列の組に対応する出現頻度の積を最大化する組合せを選択して、前記認識データとして出力し、
    前記出力部は、さらに、前記候補文字列および前記発音の候補の中から、前記音声認識部において算出した前記出現頻度の積が大きい方から予め定められた基準数の文字列および発音の組合せに含まれる、前記候補文字列および前記発音の候補を選択して出力する
    請求項1に記載のシステム。
  9. 前記入力テキストおよび前記入力音声は、共通する予め定められた分野の事象を内容とするものであり、
    前記出力部は、前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを出力して、前記予め定められた分野の音声処理に用いられる辞書に登録する
    請求項1に記載のシステム。
  10. 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得する方法であって、
    語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択することと、
    選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成することと、
    生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成することと、
    生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成することと、
    前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力することと
    を備える方法。
  11. 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
    選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
    生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する頻度生成部と、
    生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する音声認識部と、
    前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力する出力部と
    して機能させるプログラム。
  12. 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムであって、
    語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
    選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に基づいて、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
    生成した前記候補文字列および対応する前記発音の候補を、当該発音の候補が前記入力音声に含まれ、かつ、当該発音の候補が前記入力音声中に出現する文脈および当該候補文字列が前記入力テキスト中に出現する文脈が予め定められた基準以上近似することを条件に選択して出力する語句取得部と
    を備えるシステム。
JP2007055522A 2007-03-06 2007-03-06 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム Expired - Fee Related JP5207642B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007055522A JP5207642B2 (ja) 2007-03-06 2007-03-06 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US12/043,810 US8065149B2 (en) 2007-03-06 2008-03-06 Unsupervised lexicon acquisition from speech and text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007055522A JP5207642B2 (ja) 2007-03-06 2007-03-06 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008216756A true JP2008216756A (ja) 2008-09-18
JP5207642B2 JP5207642B2 (ja) 2013-06-12

Family

ID=39742540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007055522A Expired - Fee Related JP5207642B2 (ja) 2007-03-06 2007-03-06 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US8065149B2 (ja)
JP (1) JP5207642B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176103A (ja) * 2009-02-02 2010-08-12 Nippon Hoso Kyokai <Nhk> 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP2017097062A (ja) * 2015-11-19 2017-06-01 日本電信電話株式会社 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
WO2023149644A1 (ko) * 2022-02-03 2023-08-10 삼성전자주식회사 전자 장치 및 사용자 언어 모델 생성 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
JP6245846B2 (ja) 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN106462579B (zh) * 2014-10-15 2019-09-27 微软技术许可有限责任公司 为选定上下文构造词典
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
JP6483433B2 (ja) * 2014-12-25 2019-03-13 Dynabook株式会社 システム及び電子機器
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN109299471B (zh) * 2018-11-05 2022-12-27 广州百田信息科技有限公司 一种文本匹配的方法、装置及终端
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
WO2021146565A1 (en) * 2020-01-17 2021-07-22 ELSA, Corp. Methods for measuring speech intelligibility, and related systems
US11594213B2 (en) * 2020-03-03 2023-02-28 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries
CN117116267B (zh) * 2023-10-24 2024-02-13 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051992A (ja) * 1999-08-05 2001-02-23 Toshiba Corp 日本語統計データ作成装置および方法、並びにディクテーションシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051992A (ja) * 1999-08-05 2001-02-23 Toshiba Corp 日本語統計データ作成装置および方法、並びにディクテーションシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176103A (ja) * 2009-02-02 2010-08-12 Nippon Hoso Kyokai <Nhk> 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP2017097062A (ja) * 2015-11-19 2017-06-01 日本電信電話株式会社 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
WO2023149644A1 (ko) * 2022-02-03 2023-08-10 삼성전자주식회사 전자 장치 및 사용자 언어 모델 생성 방법

Also Published As

Publication number Publication date
US20080221890A1 (en) 2008-09-11
JP5207642B2 (ja) 2013-06-12
US8065149B2 (en) 2011-11-22

Similar Documents

Publication Publication Date Title
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP4249538B2 (ja) 表意文字言語のマルチモーダル入力
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
US5949961A (en) Word syllabification in speech synthesis system
CA2614840C (en) System, program, and control method for speech synthesis
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2008151926A (ja) 音声処理用の辞書に登録するべき新規語句を検索する技術
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP4738847B2 (ja) データ検索装置および方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US7272560B2 (en) Methodology for performing a refinement procedure to implement a speech recognition dictionary
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
JP2009271117A (ja) 音声検索装置および音声検索方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120518

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees