JP6599219B2 - 読み付与装置、読み付与方法、およびプログラム - Google Patents
読み付与装置、読み付与方法、およびプログラム Download PDFInfo
- Publication number
- JP6599219B2 JP6599219B2 JP2015226772A JP2015226772A JP6599219B2 JP 6599219 B2 JP6599219 B2 JP 6599219B2 JP 2015226772 A JP2015226772 A JP 2015226772A JP 2015226772 A JP2015226772 A JP 2015226772A JP 6599219 B2 JP6599219 B2 JP 6599219B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- phoneme
- speech recognition
- word
- unknown word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
実施形態の読み付与装置は、読みがわからない未知語を含む文書データとその未知語を含む発話を収録した音声データとを入力として、文書データ中の未知語とその未知語の適切な読みとを対応付けた読み情報を出力する情報処理装置である。この読み付与装置は、図1に示すように、テキスト抽出部11、形態素解析部12、未知語抽出部13、音声認識部14、対象単語選択部15、読み候補展開部16、読み決定部17、解析辞書記憶部21、解析結果記憶部22、認識辞書記憶部23、音素辞書記憶部24、および認識結果記憶部25を含む。この読み付与装置が後述する各ステップの処理を行うことにより実施形態の読み付与方法が実現される。
単語=A/読み=エー
単語=I/読み=アイ
単語=部/読み=ブ
単語=で/読み=デ
単語=H/読み=エイチ
単語=I/読み=アイ
単語=案件/読み=アンケン
単語=を/読み=ヲ
単語=議論/読み=ギロン
単語=し/読み=シ
「A」・・・・ 2回
「I」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回
「A」・・・・0.0002
「I」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005
「I」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回
「I」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005
〔参考文献1〕松原勇介, 秋葉友良, 辻井潤一, 「最小記述長原理に基づいた日本語話し言葉の単語分割」, 言語処理学会第13回年次大会発表論文集(NLP2007), 2007年
ステップS5において、読み付与装置へ、音声データが入力される。入力された音声データは音声認識部14へ送られる。この音声データは、未知語を含む発話が収録されたものである。具体的には、例えば、上記の文書データを資料として開催された会議の音声をボイスレコーダ等の録音手段により収録した音声ファイル(例えば、WAV形式やPCM形式)などである。
「今日はAI部で例の案件について話し合いました」
という発話が収録されていたとし、その音声認識結果が、
「今日は敬愛部で例の案件について話し合いました」
となったとする。この音声認識結果の文における「敬愛部」の部分は、音声認識の際に「AI部」という単語が登録されていなかったために、誤って認識された結果である。これに加えて、音声認識では音素情報も同時に得ることができる。音声データのすべての発話に対して音声認識を行い、
「kyouhakeiaibudereinoankennituitehanasiaimasita」
という音素列データが得られる。
文字「I」/音素「ai」「i」
文字列「案件」/音素「anken」
文字列「HI」/音素「hi」「hai」
このとき、単語「HI案件」については以下の音素列候補が作成される。
ecchi ai anken
eichi i anken
ecchi i anken
hi anken
hai anken
→akana(sを削除)
→akina(aをiに変換)
→akinai(iを挿入)
認識結果:「英知相案件について今日話したいことがあるんだけど・・・」
音素系列:「eichiwaiankennitsuitehanaitaikotogaarundakedo・・・」
eichiwaianke(1文字目から12文字目)とeichiaianken
ichiwaianken(2文字目から13文字目)とeichiaianken
chiwaiankenn(3文字目から14文字目)とeichiaianken
・・・
の間で編集距離を計算する。このようにして、「eichiaianken」との間で一番小さかった編集距離を保存しておく。次に、他のすべての読み候補(この例では、エッチアイアンケン→ecchiaianken)についても、同じ方法で編集距離の最小値を計算する。このすべての編集距離最小値の中でさらに最小値を与えた読み系列を最終的な読みとして決定し、出力する。例えば、
eichiaiankenについて編集距離の最小値は0(eichiaiankenとの距離)
ecchiaiankenについて編集距離の最小値は2/13(eichiaiankenとの距離)
である。この中で最小(音声データにより読みが近いものが存在する)の0を取る「eichiaianken」が正解の読みである確率が高いとされ、こちらが正解の読みとして出力される。
音素列の編集距離を計算する際、着目している音素系列の未知語らしさを定義し、これを編集距離計算に導入することができる。ここで、未知語らしさの確率値は0以上1以下の実数であるとする。例えば、音声データの方に、
「ここはミルクがほしいところだ」
という発話が出現し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このうち「amirukuga」という音素列が未知語らしさの高い系列だとわかれば、未知語の読みを検索するときに、この部分を重要視することが有効になるはずである。ここで、この未知語らしさを、音としては合っているが言語としては間違っている部分とする狙いから、音素列全体としての音素確率と言語尤度を計算し、その乖離の度合いから計算することとする。
m→0.5
i→0.5
r→0.3
u→0.95
k→0.7
u→0.6
g→0.7
a→0.5
このとき、この音素列全体としての音素確率は、次式のように0.579と定義される。
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92
一般的に音声認識では、単語ごとに「信頼度」と呼ばれる認識結果の確からしさを表す確率値が出力される。この信頼度を用いて、未知語らしさを計算することができる。
「ここはミルクがほしいところだ」
と発話し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このとき、各単語の信頼度は、例えば、
ココア→0.6
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92
と出力される。
実施形態の音声認識装置は、読み付与装置により出力された未知語とその未知語の読みを表す情報とが追加された音声認識辞書を用いて、入力された音声データの音声認識を行う情報処理装置である。この音声認識装置は、図3に示すように、音声認識部14、および認識辞書記憶部23を含む。この音声認識装置が後述する各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
12 形態素解析部
13 未知語抽出部
14 音声認識部
15 対象単語選択部
16 読み候補展開部
17 読み決定部
21 解析辞書記憶部
22 解析結果記憶部
23 認識辞書記憶部
24 音素辞書記憶部
25 認識結果記憶部
Claims (6)
- 文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開部と、
上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識部と、
上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定部と、
を含む読み付与装置。 - 請求項1に記載の読み付与装置であって、
上記音声認識部は、上記音声認識結果に各音素の音素確率と各単語の言語尤度とを含むものであり、
上記読み決定部は、上記音素確率と上記言語尤度とを用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
読み付与装置。 - 請求項1に記載の読み付与装置であって、
上記音声認識部は、上記音声認識結果に各単語の信頼度を含むものであり、
上記読み決定部は、上記信頼度を用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
読み付与装置。 - 請求項1から3のいずれかに記載の読み付与装置であって、
上記読み決定部は、上記音素列候補の中に上記音声認識結果の音素列との類似度が同一のものがあるときは、より長い音素列である音素列候補を上記未知語の読みを表す音素列とするものである、
読み付与装置。 - 読み候補展開部が、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開ステップと、
音声認識部が、上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識ステップと、
読み決定部が、上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定ステップと、
を含む読み付与方法。 - 請求項1から4のいずれかに記載の読み付与装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015226772A JP6599219B2 (ja) | 2015-11-19 | 2015-11-19 | 読み付与装置、読み付与方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015226772A JP6599219B2 (ja) | 2015-11-19 | 2015-11-19 | 読み付与装置、読み付与方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017097062A JP2017097062A (ja) | 2017-06-01 |
JP6599219B2 true JP6599219B2 (ja) | 2019-10-30 |
Family
ID=58816704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015226772A Active JP6599219B2 (ja) | 2015-11-19 | 2015-11-19 | 読み付与装置、読み付与方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6599219B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7223775B2 (ja) * | 2018-05-18 | 2023-02-16 | ジェネシス クラウド サービシーズ ホールディングス セカンド エルエルシー | 自動音声認識システムにおける信頼モデリングのためのマルチクラスアプローチのためのシステム及び方法 |
KR20210016767A (ko) | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112037770B (zh) * | 2020-08-03 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 发音词典的生成方法、单词语音识别的方法和装置 |
CN112002308B (zh) * | 2020-10-30 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
CN113160820B (zh) * | 2021-04-28 | 2024-02-27 | 百度在线网络技术(北京)有限公司 | 语音识别的方法、语音识别模型的训练方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014693A (ja) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | 音声認識システム用辞書提供方法、および音声認識インタフェース |
JP5207642B2 (ja) * | 2007-03-06 | 2013-06-12 | ニュアンス コミュニケーションズ,インコーポレイテッド | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム |
JP5326169B2 (ja) * | 2009-05-13 | 2013-10-30 | 株式会社日立製作所 | 音声データ検索システム及び音声データ検索方法 |
-
2015
- 2015-11-19 JP JP2015226772A patent/JP6599219B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017097062A (ja) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP4570509B2 (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JP2020087353A (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
EP2418589A1 (en) | Retrieval device | |
US10410632B2 (en) | Input support apparatus and computer program product | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Nguyen et al. | A method for Vietnamese Text Normalization to improve the quality of speech synthesis | |
CN117669553A (zh) | 关键字检测装置、关键字检测方法以及存储介质 | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
KR20200084945A (ko) | 한글 자연어 처리에서 검색의 품질을 향상시키기 위한 정확도 높은 형태소 분석 장치 및 그 동작 방법 | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
US20050086048A1 (en) | Apparatus and method for morphological analysis | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2014126925A (ja) | 情報検索装置および情報検索方法 | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP5866084B2 (ja) | 検索装置 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
JP2010237351A (ja) | ユーザ辞書作成システム、方法、及び、プログラム | |
JP4007504B2 (ja) | 単語分割装置、記憶媒体およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190118 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190829 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6599219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |