JP2023054951A - 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法 - Google Patents

音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法 Download PDF

Info

Publication number
JP2023054951A
JP2023054951A JP2021163989A JP2021163989A JP2023054951A JP 2023054951 A JP2023054951 A JP 2023054951A JP 2021163989 A JP2021163989 A JP 2021163989A JP 2021163989 A JP2021163989 A JP 2021163989A JP 2023054951 A JP2023054951 A JP 2023054951A
Authority
JP
Japan
Prior art keywords
dictionary
allophones
context
homomorphic
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021163989A
Other languages
English (en)
Inventor
裕介 森川
Yusuke Morikawa
伸也 日月
Shinya Tachimori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Onkyo Corp
Original Assignee
Onkyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Onkyo Corp filed Critical Onkyo Corp
Priority to JP2021163989A priority Critical patent/JP2023054951A/ja
Publication of JP2023054951A publication Critical patent/JP2023054951A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】Nグラムの肥大化を防止すること。【解決手段】辞書を用いて音声を認識する音声認識システムである。同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録されている。また、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されている。同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。【選択図】図1

Description

本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に関する。
日本語の音声認識において、同形異音語が多数存在するという言語的特徴が問題となる場合ある。「同形異音語」とは、同じ表記でありながら異なる読み(発音)を持つ語を指す。例えば、「2」の場合、「ニ」、「ジ」等の読み方がある。しかしながら、「2」の発音の仕方として、「ニ/ジ」を辞書に登録した場合、「9時/クジ」という音声を、「92/クジ」と誤って認識してしまうことがある。
上述した問題を解決する従来技術として、同形異音語を読み方ごとに別々の単語として扱う手法が知られている(例えば、特許文献1参照。)。この手法では、例えば、「2/ニ」、「2/ジ」をそれぞれ別々の単語として、辞書に登録する。
特開2007-004633号公報
しかしながら、上述した従来技術では、「言う/イウ」と「言う/ユー」のような、単なる読み方の微妙な違いでしかない語についても区別することになり、Nグラムが肥大化してしまうという問題がある。
本発明の目的は、Nグラムの肥大化を防止することである。
第1の発明の音声認識システムは、辞書を用いて音声を認識する音声認識システムであって、同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする。
本発明では、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録される。これにより、Nグラムが肥大化することがない。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする。
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする。
第4の発明の音声認識方法は、辞書を用いて音声を認識する音声認識方法であって、同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする。
第5の発明の辞書登録システムは、音声認識に用いられる辞書に単語を登録する辞書登録システムであって、同形異音語において、文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする。
第6の発明の辞書登録システムは、第5の発明の辞書登録システムにおいて、同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする。
第7の発明の辞書登録システムは、第6の発明の辞書登録システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする。
第8の発明の辞書登録方法は、音声認識に用いられる辞書に単語を登録する辞書登録方法であって、同形異音語において、文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする。
本発明によれば、Nグラムが肥大化することがない
グループ分けの例を示す図である。 辞書登録における処理動作を示すフローチャートである。
以下、本発明の実施形態について説明する。音声を認識する音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置、スピーカー装置と通信するクラウドサーバーから構成される。スピーカー装置において、ユーザーが発話した音声が、マイクロホンにより、集音される。スピーカー装置において集音された音声が、クラウドサーバーに送信され、クラウドサーバーにおいて、音声認識が行われる。なお、音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置のみにより構成され、スピーカー装置で音声認識が行われてもよい。また、音声認識機能を備えていれば、上述のスピーカー装置に限られず、他の電子機器のみで、音声認識システムが構成されていてもよい。
上述の音声認識システムにおいて、音声認識に、辞書が用いられる。辞書には、単語が登録されている。辞書に登録されている同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録されている。文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録されている。従って、単語の辞書登録時、文脈により読み方が決まる同形異音語を、2以上の別の単語として、辞書に登録する。また、文脈により読み方が決まらない同形異音語を、1つの単語として、辞書に登録する。
同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。図1は、グループ分けの例を示す図である。(a)は、「言う」の場合の例を示し、(b)は、「1」の場合の例を示している。「言う」の場合、文脈により読み方が決まらないため、1つのグループ(グループA)となる。また、「1」の場合、文脈により読み方が決まるため(「1/イチ」、「1/イッ」、「1/ヒト」)、グループA~Cにグループ分けされる。また、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。例えば、「言う」の場合、「イウ」、「ユー」が付加される。また、「1」のグループAの場合、「イチ」、「イーチ」が付加される。
図2は、辞書登録における処理動作を示すフローチャートである。まず、コーパスが作成される(S1)次に、音響モデルのトレーニングが行われる(S2)。次に、同形異音語のグループ分けが行われる(S3)。次に、形態素に発音情報が付加される(S4)。次に、言語モデルのトレーニングが行われる(S5)。
以上説明したように、本実施形態では、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録される。これにより、Nグラムが肥大化することがない。
また、本実施形態では、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。これにより、同形異音語をグループ毎に別の形態素として扱うことができ、Nグラムも別々のものとして計算されるようになる。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に好適に採用され得る。

Claims (8)

  1. 辞書を用いて音声を認識する音声認識システムであって、
    同形異音語において、
    文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、
    文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする音声認識システム。
  2. 同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする請求項1に記載の音声認識システム。
  3. 各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする請求項2に記載の音声認識システム。
  4. 辞書を用いて音声を認識する音声認識方法であって、
    同形異音語において、
    文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、
    文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする音声認識方法。
  5. 音声認識に用いられる辞書に単語を登録する辞書登録システムであって、
    同形異音語において、
    文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、
    文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする辞書登録システム。
  6. 同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする請求項5に記載の辞書登録システム。
  7. 各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする請求項6に記載の辞書登録システム。
  8. 音声認識に用いられる辞書に単語を登録する辞書登録方法であって、
    同形異音語において、
    文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、
    文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする辞書登録方法。
JP2021163989A 2021-10-05 2021-10-05 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法 Pending JP2023054951A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021163989A JP2023054951A (ja) 2021-10-05 2021-10-05 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021163989A JP2023054951A (ja) 2021-10-05 2021-10-05 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

Publications (1)

Publication Number Publication Date
JP2023054951A true JP2023054951A (ja) 2023-04-17

Family

ID=85986339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021163989A Pending JP2023054951A (ja) 2021-10-05 2021-10-05 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

Country Status (1)

Country Link
JP (1) JP2023054951A (ja)

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
CN112204653A (zh) 通过机器学习的直接的语音到语音翻译
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
JP2004259238A (ja) 自然言語解析における感情理解システム
JP2017102247A (ja) 音声対話システム、音声対話制御法およびプログラム
KR20160055059A (ko) 음성 신호 처리 방법 및 장치
JP2023054951A (ja) 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法
CN100380442C (zh) 利用优化音素集进行普通话语音识别的系统和方法
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
Nair et al. Rule-based grapheme to phoneme converter for malayalam
US6772116B2 (en) Method of decoding telegraphic speech
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
EP3718107B1 (en) Speech signal processing and evaluation
JP2014215396A (ja) 発音付与方法とその装置とプログラム
JP3881155B2 (ja) 音声認識方法及び装置
JP2015007683A (ja) 音声処理器具、音声処理方法
JP2001188556A (ja) 音声認識方法及び装置
Lehečka et al. Improving speech recognition by detecting foreign inclusions and generating pronunciations
Hernández-Mena et al. Creating a grammar-based speech recognition parser for Mexican Spanish using HTK, compatible with CMU Sphinx-III system
Reddy et al. Kannada phonemes to speech dictionary: statistical approach
JP2005202198A (ja) 辞書生成装置及び音声認識装置
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JPS58186836A (ja) 音声入力デ−タ処理装置
Markoff BUSINESS TECHNOLOGY; Talking to Machines: Progress Is Speeded
de Carvalho Campinho Automatic Speech Recognition for European Portuguese