JP2008216756A - 語句として新たに認識するべき文字列等を取得する技術 - Google Patents
語句として新たに認識するべき文字列等を取得する技術 Download PDFInfo
- Publication number
- JP2008216756A JP2008216756A JP2007055522A JP2007055522A JP2008216756A JP 2008216756 A JP2008216756 A JP 2008216756A JP 2007055522 A JP2007055522 A JP 2007055522A JP 2007055522 A JP2007055522 A JP 2007055522A JP 2008216756 A JP2008216756 A JP 2008216756A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- pronunciation
- candidate
- frequency
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Abstract
【解決手段】本発明のシステムは、語句として認識する候補となる候補文字列を入力テキストから複数選択し、選択したそれぞれの候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を複数生成し、生成した発音の各候補をそれぞれ各候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度を示す数値を記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成し、生成した頻度データに基づいて入力音声を音声認識して、入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成し、候補文字列および発音の候補の組合せのうち認識データに含まれる組合せを選択して出力する。
【選択図】図6
Description
T. Nagano, S. Mori, and M. Nishimura, "A Stochastic Approach to Phoneme and Accent Estimation," in Proc. INTERSPEECH, 2005. S. Mori and D. Takuma, "Word N-gram Probability Estimation From A Japanese Raw Corpus," in Proc. ICSLP, 2004. IBM ViaVoice for Windows 製品説明、ホームページURL「http://japan.nuance.com/viavoice/」
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以上、このような第1例の処理によって、新たな語句を取得することもできる。しかしながら、特定の専門分野の辞書を作成しようとする場合など、誤認識される語句が膨大となると、多くの手間や時間が必要となってしまう。
これに対し、本実施形態に係る語句取得システム30は、新たに語句として認識するべき文字列およびその発音を、効率的に、かつ不必要な語句を除外して高精度に取得することを目的とする。以下、具体的構成を述べる。
図8は、S700における具体的処理の一例を示す。候補選択部300は、入力テキストに含まれるある文字列について、その先頭側又は後尾側から順次他の文字列を追加する。たとえば、候補選択部300は、「アデニル酸シクラーゼ」という文字列について、その末尾に「活」を追加して、「アデニル酸シクラーゼ活」という文字列を生成する。また、候補選択部300は、その先頭に「り」を追加して、「りアデニル酸シクラーゼ」という文字列を生成する。このような処理を、追加後の文字列の入力テキストにおける出現頻度が、追加前の文字列の入力テキストにおける出現頻度と比較して低下するまで繰り返す。出現頻度が低下した場合において、当該追加前の文字列の先頭側および後尾側のうち、当該追加語の文字列を生成するために文字を追加した何れか一方は、候補文字列の境界の候補となる。そして、候補選択部300は、当該追加前の文字列を、当該追加前の文字列の先頭側および後尾側の何れもが境界の候補となったことを条件に、候補文字列として選択する。このようにすることで、入力テキスト中にある程度の頻度で出現する文字列を、一定の意味のまとまりを有する可能性があるものとして、候補文字列として選択することができる。なお、候補文字列の選択は、語句として認識するべき文字列を包含するために充分な文字列集合を生成できるものであれば、他の方法で実現されてもよい。
図9は、S720において生成され、頻度記憶部325に記憶される頻度データの一例を示す。この頻度データは、bi−gramモデルと呼ばれる言語モデルに用いられる。即ち、発音および文字列の連続する2つの組のそれぞれについて、それが入力テキストに出現する頻度を表している。一例として、「これをリン」という文字列と「コレヲリン」という発音を有する先行語に連続して、「酸化」という文字列と「サンカ」という発音の組を有する後続語が出現する確率は、0.05である。この頻度データを参照すれば、入力音声をどのように語句に区切り、かつ、どのような文字列に対応付けると、出現頻度が高い語句の組合せとなるのかを容易に判別することができる。
音声認識部330は、このようにして算出した頻度の積を最大化する発音および文字列の組合せを選択する。即ち図10の例では、音声認識部330は、P1およびP2を比較して大きい方に対応する発音および文字列の組合せを選択して、認識データとして出力する。以上、頻度データを用いれば、同一の入力音声について、複数の単語区切りや複数の文字列の候補が存在する場合であっても、文脈中における語句の出現頻度を反映して適切な区切り・文字列を出力することができる。
続いて、入力テキストから上記言語モデルデータ40を生成するのではなく、一般分野の語句について予め生成された言語モデルデータを言語モデルデータ40として利用する処理を変形例として説明する。
25 辞書記憶部
30 語句取得システム
40 言語モデルデータ
50 候補データ
300 候補選択部
310 発音生成部
315 辞書記憶部
320 頻度生成部
325 頻度記憶部
330 音声認識部
340 出力部
500 コンピュータ
Claims (12)
- 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムであって、
語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する頻度生成部と、
生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する音声認識部と、
前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力する出力部と
を備えるシステム。 - 前記頻度生成部は、それぞれの前記候補文字列が前記入力テキストに出現する頻度を算出し、当該頻度に基づいてそれぞれの前記候補文字列が出現する確率を算出することで、前記言語モデルデータを生成し、生成した前記言語モデルデータと、前記発音の候補をそれぞれ前記候補文字列に対応付けたデータとを組み合わせて、前記頻度データを生成する
請求項1に記載のシステム。 - 前記頻度生成部は、2以上の前記候補文字列の組ごとに、当該候補文字列の組が前記入力テキストに連続して出現する確率を算出して、前記言語モデルデータとして生成する
請求項2に記載のシステム。 - 前記頻度生成部は、語句として認識不能な何らかの文字列を示す未知語シンボルを含む語句集合の中から選択した2以上の語句の組ごとに、当該語句の組がテキスト中に連続して出現する頻度を示す数値を記録した前記言語モデルデータとして取得し、前記未知語シンボルにそれぞれの前記候補文字列を対応付けることで、前記頻度データを生成する
請求項1に記載のシステム。 - 前記候補選択部は、前記入力テキストに含まれるある文字列に先頭側または末尾側から順次他の文字を追加する処理を、追加後の文字列の前記入力テキストにおける出現頻度が、追加前の文字列の前記入力テキストにおける出現頻度と比較して低下するまで繰り返し、当該追加前の文字列を前記候補文字列として選択する
請求項1に記載のシステム。 - 前記発音生成部は、前記候補文字列のそれぞれについて、当該候補文字列に含まれるそれぞれの文字の発音を、文字を1または複数の発音に対応付けた発音辞書から検索して組み合わせることで、複数の発音の候補を生成する
請求項1に記載のシステム。 - 前記出力部は、前記認識データに含まれる前記候補文字列および前記発音の候補の組合せを、当該組合せが予め定められた基準回数以上前記認識データに出現することを条件に出力する
請求項1に記載のシステム。 - 前記音声認識部は、前記頻度データに基づいて、前記入力音声に一致する発音の組合せおよび当該発音の組合せに対応する文字列の組合せのうち、発音および文字列の組に対応する出現頻度の積を最大化する組合せを選択して、前記認識データとして出力し、
前記出力部は、さらに、前記候補文字列および前記発音の候補の中から、前記音声認識部において算出した前記出現頻度の積が大きい方から予め定められた基準数の文字列および発音の組合せに含まれる、前記候補文字列および前記発音の候補を選択して出力する
請求項1に記載のシステム。 - 前記入力テキストおよび前記入力音声は、共通する予め定められた分野の事象を内容とするものであり、
前記出力部は、前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを出力して、前記予め定められた分野の音声処理に用いられる辞書に登録する
請求項1に記載のシステム。 - 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得する方法であって、
語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択することと、
選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成することと、
生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成することと、
生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成することと、
前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力することと
を備える方法。 - 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
生成した前記発音の候補をそれぞれ前記候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度に基づく数値を予め記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成する頻度生成部と、
生成した前記頻度データに基づいて前記入力音声を音声認識して、前記入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成する音声認識部と、
前記候補文字列および前記発音の候補の組合せのうち前記認識データに含まれる組合せを選択して出力する出力部と
して機能させるプログラム。 - 入力テキストおよび入力音声から、語句として認識するべき文字列とその発音を取得するシステムであって、
語句として認識する候補となる候補文字列を前記入力テキストから少なくとも1つ選択する候補選択部と、
選択したそれぞれの前記候補文字列について、当該候補文字列に含まれる各文字に基づいて、当該候補文字列の発音の候補を少なくとも1つ生成する発音生成部と、
生成した前記候補文字列および対応する前記発音の候補を、当該発音の候補が前記入力音声に含まれ、かつ、当該発音の候補が前記入力音声中に出現する文脈および当該候補文字列が前記入力テキスト中に出現する文脈が予め定められた基準以上近似することを条件に選択して出力する語句取得部と
を備えるシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007055522A JP5207642B2 (ja) | 2007-03-06 | 2007-03-06 | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム |
US12/043,810 US8065149B2 (en) | 2007-03-06 | 2008-03-06 | Unsupervised lexicon acquisition from speech and text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007055522A JP5207642B2 (ja) | 2007-03-06 | 2007-03-06 | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008216756A true JP2008216756A (ja) | 2008-09-18 |
JP5207642B2 JP5207642B2 (ja) | 2013-06-12 |
Family
ID=39742540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007055522A Expired - Fee Related JP5207642B2 (ja) | 2007-03-06 | 2007-03-06 | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8065149B2 (ja) |
JP (1) | JP5207642B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176103A (ja) * | 2009-02-02 | 2010-08-12 | Nippon Hoso Kyokai <Nhk> | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム |
JP2017097062A (ja) * | 2015-11-19 | 2017-06-01 | 日本電信電話株式会社 | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム |
WO2023149644A1 (ko) * | 2022-02-03 | 2023-08-10 | 삼성전자주식회사 | 전자 장치 및 사용자 언어 모델 생성 방법 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
JP6245846B2 (ja) | 2013-05-30 | 2017-12-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識における読み精度を改善するシステム、方法、およびプログラム |
US9589562B2 (en) * | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN106462579B (zh) * | 2014-10-15 | 2019-09-27 | 微软技术许可有限责任公司 | 为选定上下文构造词典 |
US9922643B2 (en) * | 2014-12-23 | 2018-03-20 | Nice Ltd. | User-aided adaptation of a phonetic dictionary |
JP6483433B2 (ja) * | 2014-12-25 | 2019-03-13 | Dynabook株式会社 | システム及び電子機器 |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9886433B2 (en) * | 2015-10-13 | 2018-02-06 | Lenovo (Singapore) Pte. Ltd. | Detecting logograms using multiple inputs |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN109299471B (zh) * | 2018-11-05 | 2022-12-27 | 广州百田信息科技有限公司 | 一种文本匹配的方法、装置及终端 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
WO2021146565A1 (en) * | 2020-01-17 | 2021-07-22 | ELSA, Corp. | Methods for measuring speech intelligibility, and related systems |
US11594213B2 (en) * | 2020-03-03 | 2023-02-28 | Rovi Guides, Inc. | Systems and methods for interpreting natural language search queries |
CN117116267B (zh) * | 2023-10-24 | 2024-02-13 | 科大讯飞股份有限公司 | 语音识别方法及装置、电子设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001051992A (ja) * | 1999-08-05 | 2001-02-23 | Toshiba Corp | 日本語統計データ作成装置および方法、並びにディクテーションシステム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4652737B2 (ja) * | 2004-07-14 | 2011-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
-
2007
- 2007-03-06 JP JP2007055522A patent/JP5207642B2/ja not_active Expired - Fee Related
-
2008
- 2008-03-06 US US12/043,810 patent/US8065149B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001051992A (ja) * | 1999-08-05 | 2001-02-23 | Toshiba Corp | 日本語統計データ作成装置および方法、並びにディクテーションシステム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176103A (ja) * | 2009-02-02 | 2010-08-12 | Nippon Hoso Kyokai <Nhk> | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム |
JP2017097062A (ja) * | 2015-11-19 | 2017-06-01 | 日本電信電話株式会社 | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム |
WO2023149644A1 (ko) * | 2022-02-03 | 2023-08-10 | 삼성전자주식회사 | 전자 장치 및 사용자 언어 모델 생성 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20080221890A1 (en) | 2008-09-11 |
JP5207642B2 (ja) | 2013-06-12 |
US8065149B2 (en) | 2011-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
JP4249538B2 (ja) | 表意文字言語のマルチモーダル入力 | |
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
US5949961A (en) | Word syllabification in speech synthesis system | |
CA2614840C (en) | System, program, and control method for speech synthesis | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP2008151926A (ja) | 音声処理用の辞書に登録するべき新規語句を検索する技術 | |
JPWO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP6453631B2 (ja) | 認識システム、認識方法およびプログラム | |
JP2009139862A (ja) | 音声認識装置及びコンピュータプログラム | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
US7272560B2 (en) | Methodology for performing a refinement procedure to implement a speech recognition dictionary | |
Liang et al. | An efficient error correction interface for speech recognition on mobile touchscreen devices | |
JP2009271117A (ja) | 音声検索装置および音声検索方法 | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120518 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |