JP2012247556A - 音声認識方法とその装置とプログラム - Google Patents
音声認識方法とその装置とプログラム Download PDFInfo
- Publication number
- JP2012247556A JP2012247556A JP2011118145A JP2011118145A JP2012247556A JP 2012247556 A JP2012247556 A JP 2012247556A JP 2011118145 A JP2011118145 A JP 2011118145A JP 2011118145 A JP2011118145 A JP 2011118145A JP 2012247556 A JP2012247556 A JP 2012247556A
- Authority
- JP
- Japan
- Prior art keywords
- word
- utterance
- relevance
- future
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】この発明の音声認識方法のNベスト候補スコア再計算過程は、過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、Nベストの全順位の現在発話単語と全ての過去発話単語の単語ペアの過去・現在関連度と、Nベストの全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算する。
【選択図】図2
Description
図10に、上記した単語関連度テーブルを作成する単語関連度テーブル作成装置200の機能構成例を示す。単語関連度テーブル作成装置200は、学習コーパス30、形態素解析部31、学習コーパス単語集合取得部32、単語リスト33、単語カウント部34、単語関連度計算部35、テーブル配列部36、を具備する。単語関連度テーブル作成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
Claims (7)
- 入力される音声文書の発話区間を検出して発話列として出力する発話分割過程と、
上記発話列を入力として音声認識を行い発話区間ごとに上位N個の認識結果候補単語と認識スコアとを組みにしたNベスト候補を求めNベスト候補列として出力する音声認識過程と、
上記Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位1位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
上記過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替えるNベスト候補スコア再計算過程と、
各発話区間の順位1位の候補を連結した音声認識結果を出力する音声認識結果出力過程と、
を備える音声認識方法。 - 請求項1に記載した音声認識方法において、
上記Nベスト候補スコア再計算過程は、
単語抽出手段が、上記Nベスト候補列を入力として、単語リストを参照して現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位のn個の過去発話単語を過去発話単語集合として抽出すると共に、当該現在発話区間から上記音声文書の末尾方向に順位1位のm個の未来発話単語を未来発話単語集合として抽出し、現在発話区間の全ての順位の単語候補の現在発話単語を現在発話単語集合として抽出する単語抽出ステップと、
過去発話単語ペア抽出手段が、上記過去発話単語集合の全ての2単語の組み合わせを過去発話単語ペアとして抽出し、当該過去発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去発話関連度平均値meanSpを算出する過去発話単語ペア抽出ステップと、
未来発話単語ペア抽出手段が、上記未来発話単語集合の全ての2単語の組み合わせを未来発話単語ペアとして抽出し、当該未来発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来発話関連度平均値meanSfを算出する未来発話単語ペア抽出ステップと、
過去・現在関連度算出手段が、上記過去発話単語と上記現在発話単語の全ての2単語の組み合わせを過去・現在単語ペアとして抽出し、当該過去・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去・現在発話関連度平均値sumSkpcと上記過去・現在単語ペアの個数Nkpcを算出する過去・現在単語ペア抽出ステップと、
未来・現在単語ペア抽出手段が、上記未来発話単語と上記現在発話単語の全ての2単語の組み合わせを未来・現在単語ペアとして抽出し、当該未来・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来・現在発話関連度平均値sumSkfcと上記未来・現在単語ペアの個数Nkfcを算出する未来・現在単語ペア抽出ステップと、
過去・現在関連度評価手段が、上記過去発話関連度平均値meanSpの値が閾値以下の場合に当該過去発話関連度平均値meanSpと上記過去発話単語ペアの個数Nkpcを0にリセットする過去・現在関連度評価ステップと、
現在・未来関連度評価手段が、上記未来発話関連度平均値meanSfの値が閾値以下の場合に当該未来発話関連度平均値meanSfと上記上記未来発話単語ペアの個数Nkfcを0にリセットする現在・未来関連度評価ステップと、
スコア再計算手段が、現在発話区間の認識スコアRk,iに重みαを乗じた値に、上記過去・現在発話関連度平均値sumSkpcと上記未来発話関連度平均値meanSfの和に1から上記重みαを減じた値を乗じた値を加えた値を、新たな認識スコアRk,i′として再計算するスコア再計算ステップと、
を含むことを特徴とする音声認識方法。 - 請求項2に記載した音声認識方法において、
上記単語抽出手段が抽出する過去発話単語集合のn個と、未来発話単語集合のm個はそれぞれ10個以上であることを特徴とする音声認識方法。 - 請求項2又は3に記載した音声認識方法において、
上記重みαがα=0.5であることを特徴とする音声認識方法。 - 請求項1乃至4の何れかに記載した音声認識方法において、
上記単語関連度テーブルは、
音声文書を集積した学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析過程と、
上記単語境界付き学習コーパスを入力として上記単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得過程と、
上記単語集合を入力として単語集合内の各単語の単独生起回数C(w)と、各単語ペアの生起回数C(wi,wj)と、単語集合の個数Nとをカウントして出力する単語カウント過程と、
上記単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(wi,wj)と上記単語集合の個数Nを入力として。2個の単語間の単語関連度を計算する単語関連度計算過程と、
2個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列過程と、を備える単語関連度テーブル作成方法であって、
上記単語関連度計算過程は、
各単語の単独生起回数C(w)と各単語ペアの生起回数C(wi,wj)を入力として、上記生起回数C(wi,wj)がr回となっている単語ペア(wi,wj)の種類数Nrと、生起回数C(wi,wj)がr-1回となっている単語ペア(wi,wj)の種類数Nr-1を数え、生起回数C(wi,wj)がr-1回より大きな単語ペア(wi,wj)の生起回数C(wi,wj)をそのまま補正後の生起回数C′(wi,wj)とし、生起回数C(wi,wj)がr-1回の単語ペア(wi,wj)の補正後の生起回数C′(wi,wj)を、r-1回に上記種類数Nrを上記種類数Nr-1で除した値を乗じた値として出力する生起回数補正ステップと、
上記各単語の単独生起回数C(w)と補正後の生起回数C′(wi,wj)を入力として、上記単語ペア(wi,wj)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的手法に基づいて検定する検定値を計算する検定値計算ステップと、
上記単独生起回数C(w)と上記補正後の生起回数C′(wi,wj)と上記検定値を入力として、上記検定値が閾値より大きな単語ペア(wi,wj)の関連度を、補正後の生起回数C′(wi,wj)に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出力し、上記検定値が閾値よりも小さな単語ペア(wi,wj)の関連度をそのまま出力する補正関連度計算ステップと、
を含む単語関連度テーブル作成方法によって作成されたものであることを特徴とする音声認識方法。 - 入力される音声文書の発話区間を検出して発話列として出力する発話分割部と、
上記発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位N個の認識結果候補と認識スコアを組みにしたNベスト候補を求めNベスト候補列として出力する音声認識部と、
上記Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位1位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
上記過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替えるNベスト候補スコア再計算部と、
各発話区間の順位1位の候補を連結した音声認識結果を出力する音声認識結果出力部と、
を具備する音声認識装置。 - 請求項1乃至5の何れかに記載した音声認識方法を、コンピュータに実行させるための音声認識方法プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118145A JP5513440B2 (ja) | 2011-05-26 | 2011-05-26 | 音声認識方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118145A JP5513440B2 (ja) | 2011-05-26 | 2011-05-26 | 音声認識方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012247556A true JP2012247556A (ja) | 2012-12-13 |
JP5513440B2 JP5513440B2 (ja) | 2014-06-04 |
Family
ID=47468053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011118145A Active JP5513440B2 (ja) | 2011-05-26 | 2011-05-26 | 音声認識方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5513440B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335056A (zh) * | 2024-05-14 | 2024-07-12 | 江苏华明国安技术有限公司 | 基于上下文感知的自适应语音播报方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172294A (ja) * | 1998-12-07 | 2000-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置及びプログラム記録媒体 |
JP2012022070A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
-
2011
- 2011-05-26 JP JP2011118145A patent/JP5513440B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172294A (ja) * | 1998-12-07 | 2000-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置及びプログラム記録媒体 |
JP2012022070A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200600047003; 中里理恵他: '"生成文書モデルを用いた文書読み上げ音声認識"' 社団法人情報処理学会研究報告 Vol.2005,No.69, 200507, pp.19-24 * |
CSNG201000696007; 浅見太一他: '"単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定"' 電子情報通信学会技術研究報告 Vol.110,No.143, 201007, pp.43-48 * |
JPN6013033014; 浅見太一他: '"単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定"' 電子情報通信学会技術研究報告 Vol.110,No.143, 201007, pp.43-48 * |
JPN6014004985; 中里理恵他: '"生成文書モデルを用いた文書読み上げ音声認識"' 社団法人情報処理学会研究報告 Vol.2005,No.69, 200507, pp.19-24 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335056A (zh) * | 2024-05-14 | 2024-07-12 | 江苏华明国安技术有限公司 | 基于上下文感知的自适应语音播报方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5513440B2 (ja) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457688B (zh) | 纠错处理方法及装置、存储介质和处理器 | |
US9672817B2 (en) | Method and apparatus for optimizing a speech recognition result | |
US9442910B2 (en) | Method and system for adding punctuation to voice files | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US7983915B2 (en) | Audio content search engine | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
US8065149B2 (en) | Unsupervised lexicon acquisition from speech and text | |
Mairesse et al. | Can prosody inform sentiment analysis? experiments on short spoken reviews | |
US20080270344A1 (en) | Rich media content search engine | |
US20080270110A1 (en) | Automatic speech recognition with textual content input | |
US20070219779A1 (en) | Clustering system, clustering method, clustering program and attribute estimation system using clustering system | |
US10403271B2 (en) | System and method for automatic language model selection | |
US9165553B2 (en) | Information processing device, large vocabulary continuous speech recognition method and program including hypothesis ranking | |
KR101636902B1 (ko) | 문법의 오류 검출 방법 및 이를 위한 장치 | |
Van Dalen et al. | Improving multiple-crowd-sourced transcriptions using a speech recogniser | |
JP5513461B2 (ja) | 音声認識装置とその方法とプログラム | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
JP5513440B2 (ja) | 音声認識方法とその装置とプログラム | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2007052307A (ja) | 音声認識結果の検査装置及びコンピュータプログラム | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4175093B2 (ja) | トピック境界決定方法及び装置及びトピック境界決定プログラム | |
JP5513439B2 (ja) | 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5513440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |