JP5877823B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP5877823B2
JP5877823B2 JP2013175117A JP2013175117A JP5877823B2 JP 5877823 B2 JP5877823 B2 JP 5877823B2 JP 2013175117 A JP2013175117 A JP 2013175117A JP 2013175117 A JP2013175117 A JP 2013175117A JP 5877823 B2 JP5877823 B2 JP 5877823B2
Authority
JP
Japan
Prior art keywords
transition
speech recognition
special
wfst
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013175117A
Other languages
English (en)
Other versions
JP2015045668A (ja
Inventor
健一 磯
健一 磯
ウィッタッカー・エドワード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013175117A priority Critical patent/JP5877823B2/ja
Publication of JP2015045668A publication Critical patent/JP2015045668A/ja
Application granted granted Critical
Publication of JP5877823B2 publication Critical patent/JP5877823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声を認識する音声認識装置等に関するものである。
従来の音声認識装置において、音声信号を、WFST(重み付き有限状態トランスデューサ)を用いてデコードし、音声認識の結果の文字列を取得する手法が用いられている(例えば、非特許文献1参照)。WFSTを用いた音声認識は、大規模な音響モデル、辞書、および言語モデルを合成したWFSTを用いるほど音声認識の精度が上がる手法である。そのため、精度に比例して、音声認識に必要なメモリ使用量が増化する問題がある。そこで、共通する状態遷移を共有化する等の処理によってデータ量の削減が行われている(例えば、特許文献1、および非特許文献2参照)。
特開2012−113087号公報
堀貴明,塚田元、「音声情報処理技術の最先端:3.重み付き有限状態トランスデューサによる音声認識」、情報処理学会誌,Vol.45,No.10,p.1020−1026,2004年10月 磯健一,Edward Whittaker,江森正,三宅純平、「日本語音声検索の改良」、日本音響学会講演論文集,No.3−1−6,p.107−108,2012年9月
上述したように、WFSTについては、データ量を削減することが求められていた。
本発明は、上記課題を解決するためになされたものであり、その目的は、WFSTのデータ量を削減することである。
本第一の発明の音声認識装置等は、発話された音声を示す音声信号を受け付ける音声信号受付手段と、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる1以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、音声認識結果情報を出力する出力手段とを具備する音声認識装置である。
また、本第二の発明の音声認識装置等は、発話された音声を示す音声信号を受け付ける音声信号受付手段と、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる1以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、音声認識結果情報を出力する出力手段とを具備する音声認識装置である。
また、本第三の発明の音声認識装置は、第一または第二の発明に対して、音声認識手段は、特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得する、音声認識装置である。
また、本第四の発明の音声認識装置は、第一から第三のいずれかの発明に対して、単語に関する用語は、単語に対応する用語であって、単語と発音が異なる用語である、音声認識装置である。
本発明による音声認識装置等によれば、一部の遷移にのみ出力に関する特殊発音記号を付与するようにしたため、そうでないWFSTよりデータ量を削減できる。
実施の形態1における音声認識装置のブロック図 同実施の形態におけるWFST格納手段に格納されている音声認識WFSTの一例を視覚化した図 同実施の形態における用語格納手段に格納されている用語の一例を示す図 同実施の形態における音声認識装置の動作の一例を示すフローチャート 同実施の形態におけるコンピュータシステムの外観の一例を示す図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、音声認識装置等の実施の形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、音声認識に用いるWFST内の単語間の境界位置に、単語を識別する情報を加え、その情報を用いて音声認識の結果を出力する音声認識装置1について説明する。
図1は、本実施の形態における音声認識装置1のブロック図である。音声認識装置1は、WFST格納手段101、音声信号受付手段102、用語格納手段103、音声認識手段104、および出力手段105を備える。
WFST格納手段101には、音声信号を単語の列に変換するために用いられる最適化済みのWFSTである音声認識WFSTが格納される。WFSTは、Weighted Finite State Transducerの略であり、重み付き有限状態トランスデューサと訳される。WFSTとは、入力記号列に対して状態遷移を繰り返し、それに対応した出力の情報の列と重み(スコア)とを出力する有限状態オートマトンの一種である。WFSTを用いた音声認識は、音響モデル、辞書、および言語モデル等の音声認識に必要な情報をそれぞれWFSTに変換し、それらを合成したWFSTを探索空間に見立てて、音声信号をデコードし、音声認識結果の文字列に変換する手法である。また、WFSTを用いた音声認識は、デコードする過程で累積された重みの値が最も大きい状態遷移が示す文字列を取得する手法である。
音声信号を単語の列に変換するために用いられる最適化済みのWFSTは、最適化手法である決定化、および/または、最小化を行った状態である。なお、通常、最適化済みのWFSTは、2以上のWFSTを合成し、その合成後のWFSTについて最適化を行うことによって生成されるが、そうでなくても良い。後者の場合には、例えば、合成後のWFSTと同様のものを直接作成し、それに対して最適化を行っても良く、または、最適化済みのWFSTと同様のものを直接作成しても良い。決定化は、WFSTが非決定性WFSTであった場合に、決定性WFSTに変換する最適化手法である。決定性WFSTは、1つの情報に対して、最終的な遷移先の状態が1つに定まるWFSTである。非決定性WFSTは、1つの情報に対して、最終的な遷移先の状態が複数あるWFSTである。なお、非決定性WFSTの場合の音声認識の結果は、累積された重みの値を用いて選択された1つの結果であっても良い。また、最小化は、WFSTの状態の数を最小限にする最適化手法である。例えば、最小化は、入力の順番が共通する1以上の遷移の組がある場合に、その遷移の組み合わせを、共通化する最適化手法である。なお、決定化、および最小化に用いるアルゴリズムは問わない。本実施の形態で用いられる音声認識WFSTは、一般遷移、および特殊遷移である遷移と、状態とを有するWFSTである。特殊遷移を含まないWFSTを用いた音声認識、および最適化等は、公知技術であるため、それらの詳細な説明を省略する。
一般遷移とは、入力を有する遷移である。一般遷移は、グラフ構造におけるリンク(エッジ)を示すものである。「一般」は、特殊遷移の「特殊」に対しての「一般」である。一般遷移は、従来のWFSTにおける一般的な遷移と一部が異なる遷移である。例えば、一般遷移は、従来のWFSTの遷移と異なり、音声認識に用いる通常のWFSTに含まれる遷移が有する出力の情報を含まない情報である。本実施の形態における一般遷移の入力は、音声信号の特徴量に対応する情報である。音声信号の特徴量とは、一定期間ごとに分割された音声信号の、その期間における特徴量である。なお、以下、一定期間ごとに分割された各期間に対応する時間的な枠をフレームとも言う。特徴量は、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータ、およびデルタデルタパラメータをそれぞれ12次元有し、さらに正規化されたパワーとデルタパワー、およびデルタデルタパワーを有しても良い(合計39次元)。また、特徴量は、MFCCの12次元、ΔMFCCの12次元、Δ対数パワーの1次元を含む25次元のものであっても良い。このように、種々の特徴量を用いることが可能である。特徴量の取得方法は、公知技術であるため、詳細な説明を省略する。以下、音声認識WFST上の、各フレームの特徴量に対応する情報を、音素ともいうものとする。また、音素は、アルファベットを用いて記述する。なお、一般遷移に含まれる入力に対応する音素は、1つの音素であっても良く、2以上の音素であっても良い。後者の場合は、例えば、一般遷移には、直前の音素、および/または、直後の音素が入力に対応付けられていても良い。2以上の音素が入力に対応付けられている場合の音声認識WFSTは、文脈に依存した状態遷移が可能であり、文脈に依存しない音声認識WFSTよりも高い精度で音声認識が可能となる。
特殊遷移とは、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる1以上の一般遷移の組の次の遷移であっても良い。特殊遷移も、グラフ構造におけるリンクを示すものである。1以上の一般遷移の組の次の遷移とは、特定の単語を示すために用いられる1以上の一般遷移の最後の遷移の次の遷移であっても良い。なお、特定の単語を示すために用いられる1以上の一般遷移は、1以上の連続した一般遷移である。また、特殊繊維は、単語の認識に用いられる1以上の一般遷移の組の前の遷移であっても良い。1以上の一般遷移の組の前の遷移とは、特定の単語を示すために用いられる1以上の一般遷移の最後の遷移の前の遷移であっても良い。なお、特殊繊維が1以上の一般遷移の組の前後どちらの位置にあるかは、1つのWFSTの中で統一されていることが好適である。特殊発音記号は、単語に関連する用語そのものであっても良く、単語に関連する用語を識別するID等の情報であっても良い。単語に関連する用語は、単語と同じ用語であっても良く、そうでなくても良い。前者の場合には、用語は単語そのものとなる。後者の場合については後述する。特殊発音記号がIDである場合は、特殊発音記号は、用語格納手段103に格納されている用語を識別するIDであっても良く、図示しない外部の装置に格納されている用語を識別するIDであっても良い。なお、以下では、特殊発音記号を用語格納手段103に格納されている用語を識別するIDとして説明するものとする。また、特殊遷移は、入力を有していなくても良く、入力を有していても良い。なお、特殊遷移が入力を有している場合の入力は、入力の音声信号なしで遷移できる情報(一般的にεで記述)であるものとする。
従来の方法では、すべての遷移に出力の情報が含まれるが、本実施の形態では、特殊遷移に出力の情報を含めることによって、一般遷移が出力の情報を保持しなくても良くなる。例えば、従来、1つの遷移に、直前の状態を識別する情報と、直後の状態を識別する情報と、入力と、出力と、重みとが含まれ、それぞれが2バイトずつメモリを使用している場合で、6つの音素で1つの単語を示していると仮定するとき、本実施の形態では、一般遷移が、直前の状態を識別する情報と、直後の状態を識別する情報と、入力と、重みとを含み、特殊遷移が、直前の状態を識別する情報と、直後の状態を識別する情報と、出力とを含むのみで良いため、1つの単語あたり、6バイト削減できる。また、一般にWFSTの最適化アルゴリズムは最適化の途中に、各遷移に付随する出力記号を別の遷移上へ移動させることがある。よって入力記号と出力記号の対応付けはデコード用WFSTでは異なってしまうため、出力記号を保持する遷移が必ずしも単語の最後の音素ではなくなってしまう。そのため、単語の境界位置を知ることができなくなってしまう。しかし、本実施の形態によるWFSTでは、単語境界位置に特殊発音記号が埋め込まれているため、従来の音声認識用WFSTでは困難だった単語境界情報の検出と、単語の特定が可能となる。ただし、最適化は、特殊遷移を考慮した最適化が行われるものとする。特殊遷移を考慮した最適化の処理は、例えば、前方部分の音素が一致した場合に、前方の一致した音素のみを共通化する処理であっても良く、後方の部分の音素が一致した場合に、後方の一致した音素のみを共通化する処理であっても良く、前方、後方の部分の音素が一致した場合に、その一致した音素を共通化する処理であっても良い。ただし、後方の音素を共通化する場合の特殊遷移を考慮した最適化の処理は、音声認識手段104が、共通化の際にたどった単語の音素に応じて、適切な特殊発音記号を有する特殊遷移をたどることができるようにする手法である。この場合は、例えば、特殊遷移は、前方の遷移を識別する情報を有していても良い。音声認識手段104は、その前方の遷移を識別する情報を用いて、どの特殊遷移をたどるかどうかを判断しても良い。なお、後方の音素を共通化する場合の最小化のアルゴリズムは、結果として適切な特殊遷移を選択できれば良いため、その手法は問わない。
また、状態とは、各遷移によって接続されるものである。各遷移とは、1以上の一般遷移、および/または、1以上の特殊遷移である。状態は、グラフ構造におけるノードを示すものである。状態は、1以上の一般遷移を介して、前の状態から移行できるようなノードであっても良く、1以上の特殊遷移を介して、前の状態から移行できるようなノードであっても良く、1以上の一般遷移と1以上の特殊遷移とを介して、前の状態から移行できるようなノードであっても良く、いずれの状態からも移行できないノードであっても良い。また、状態は、1以上の一般遷移を介して、それぞれの一般遷移に応じた次の状態に移行できるノードであっても良く、1以上の特殊遷移を介して、それぞれの特殊遷移に応じた次の状態に移行できるノードであっても良く、1以上の一般遷移と1以上の特殊遷移とを介して、それぞれの遷移に応じた次の状態に移行できるノードであっても良く、いずれの状態へも移行できないノードであっても良い。
音声認識WFSTは、結果として、WFSTを用いた音声認識が可能であれば、どのようなデータの持ち方で実現しても良い。例えば、一般遷移は、その一般遷移の直前の状態を識別する情報を有していても良く、有していなくても良い。また、一般遷移は、その一般遷移の直後の状態を識別する情報を有していても良く、有していなくても良い。また、特殊遷移は、その特殊遷移の直前の状態を識別する情報を有していても良く、有していなくても良い。また、特殊遷移は、その特殊遷移の直後の状態を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直前の遷移を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直後の遷移を識別する情報を有していても良く、有していなくても良い。具体的には、音声認識WFSTは、各状態と、その状態の直後の遷移を識別する情報とを対応付ける情報、および、各遷移と、その遷移の直後の状態とを対応付ける情報を有していても良い。また、各一般遷移には、音素である入力記号と、重みとが対応付けられていても良い。なお、データは、重複して持たないことが好適である。テータの重複は、例えば、一般遷移が、直後の状態を識別する情報を有していて、状態が、直前の遷移を識別する情報を有している場合などである。
なお、本実施の形態におけるWFSTの重み情報は、一般遷移が有していても良く、特殊遷移が有していても良く、状態が有していても良く、上記2以上の組み合わせた要素が有していても良い。WFST格納手段101に格納される音声認識WFSTの一例を視覚化したものを図2に示す。図2のWFSTは、入力された単語の音声信号から、その単語を認識する音声認識WFSTである。図2のWFSTにおいて、矢印で示されているものが遷移であり、丸印で示されているものが状態である。また、音素と対応付けられている遷移が一般遷移であり、#から始まる数字で示されている情報と対応付けられている遷移が特殊遷移である。なお、#から始まる数字は、用語を識別するIDである。つまり、#から始まる数字は、特殊発音記号である。図2の音声認識WFSTは、例えば、そのWFSTを繰り返したどることで、複数の単語や文章の音声認識を行うことができるものである。
音声信号受付手段102は、音声信号を受け付ける。音声信号は、発話された音声を示す信号である。音声信号受付手段102は、発話された音声を集音した装置から音声信号を受け付けても良く、集音した装置以外から音声信号を受け付けても良い。なお、ここでいう「音声を集音した装置」は、マイクロフォン装置であっても良く、スマートフォンやPDA等の端末装置であっても良い。集音した装置以外から音声信号を受け付ける場合は、音声信号受付手段102は、メモリーカードやUSBメモリ等を介して音声信号を受け付けても良い。また、音声信号受付手段102は、通信回線を介して音声信号を受け付けても良い。通信回線は、有線、または無線の通信回線であっても良い。例えば、通信回線は、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線等である。音声は、1または2以上の単語の音声であっても良く、1または2以上の文節の音声であっても良く、1または2以上の文章の音声であっても良い。
用語格納手段103には、IDである特殊発音記号と、その特殊発音記号に対応する用語が1以上格納されている。用語格納手段103に格納されている情報の一例を図3に示す。図3のテーブルは、特殊発音記号と用語とを有している。例えば、「特殊発音記号:#00001」の用語は「水郷」である。
音声認識手段104は、主WFSTを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する。具体的には、音声認識手段104は、音声信号を、一定の期間ごとに分割したフレームごとに取得する。そして、音声認識手段104は、分割したフレームごとの特徴量を取得する。さらに、音声認識手段104は、その特徴量、またはその特徴量の2以上の組み合わせごとに遷移をたどりながら、特殊遷移が有する特殊発音記号を蓄積する。音声認識手段104は、遷移をたどる際に、分割したフレームごとの特徴量に合致した遷移を選択しながらたどる。遷移をたどり終えると、音声認識手段104は、蓄積された特殊発音記号に対応する用語の列を取得することで音声認識結果情報を取得する。音声信号に対応する特殊遷移とは、音声認識によって認識された1つの結果を導くまでに、たどった遷移のうち、その結果を識別するのにたどった特殊遷移のことである。音声認識手段104は、その特殊遷移に対応する用語の列を取得する。なお、フレームに対応する期間の長さは問わない。また、音声認識手段104は、特徴量を取得する場合に、音声に関する特徴量のみを抽出するために、雑音を除外するための処理等を行っても良い。
また、音声認識手段104は、特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得しても良い。単語間の境界に関する情報は、特殊発音記号に対応付けられている用語ごとの境界に対応する音声信号の時間的な位置を示す情報であっても良い。音声信号の時間的な位置を示す情報は、例えば、音声信号のタイムコード等であっても良い。具体的には、単語間の境界に関する情報も含む音声認識結果情報では、音声認識結果であるテキスト情報における単語の境界と、その単語の境界に対応する音声信号のタイムコードとが対応付けられていても良い。
出力手段105は、音声認識結果情報を出力する。出力手段105は、例えば、音声認識結果情報に含まれている用語の列である文字列を出力しても良く、その用語の列を音声認識された単語間の境界ごとに区切って出力しても良く、その用語の列を音声認識された単語間の境界ごとに音声信号と対応付けて出力しても良い。
WFST格納手段101、および用語格納手段103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。WFST格納手段101等に音声認識WFST等の情報が記憶される過程は問わない。例えば、記録媒体を介して音声認識WFST等の情報がWFST格納手段101等で記憶されるようになっても良く、通信回線等を介して送信された音声認識WFST等の情報がWFST格納手段101等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された音声認識WFST等の情報がWFST格納手段101等で記憶されるようになっても良い。
音声信号受付手段102は、受け付けを行うための、インターフェースカードやモデムやネットワークカードやカードリーダー等のデバイスを含んでも良く、あるいは含まなくても良い。また、音声信号受付手段102は、ハードウェアによって実現されても良く、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。
音声認識手段104は、通常、MPUやメモリ等から実現され得る。音声認識手段104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力手段105は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。
次に、音声認識装置1の動作について図4のフローチャートを用いて説明する。なお、本フローチャートは、音声認識の対象となる音声信号をすべて受け付けてから、その音声信号に対する音声認識を開始するものである。
(ステップS201)音声信号受付手段102は、音声信号を受け付けたかどうかを判断する。音声信号を受け付けた場合は、ステップS202へ進み、受け付けなかった場合は、ステップS201を繰り返す。
(ステップS202)音声認識手段104は、ステップS201で受け付けた音声信号を一定の期間ごとに分割する。
(ステップS203)音声認識手段104は、ステップS202で分割した期間ごとに特徴量を取得する。
(ステップS204)音声認識手段104は、カウンタnに1を代入する。
(ステップS205)音声認識手段104は、n番目の特徴量があるかどうかを判断する。n番目の特徴量がある場合は、ステップS206へ進み、n番目の特徴量がない場合は、ステップS212へ進む。
(ステップS206)音声認識手段104は、n番目の特徴量に対応する遷移から、n番目の特徴量に合致する遷移を選択する。なお、ここでいうn番目の特徴量に対応する遷移とは、音声認識WFST上の現在の状態の次の遷移であり、n番目の特徴量、および/または、n番目以前の特徴量によってたどった遷移の履歴に合致する遷移のことを示しているものとする。
(ステップS207)音声認識手段104は、ステップS206で選択した遷移をたどり、次の状態へ移行する。
(ステップS208)音声認識手段104は、次の遷移が特殊遷移であるかどうかを判断する。次の遷移が特殊遷移である場合は、ステップS209へ進み、特殊遷移でない場合は、ステップS211へ進む。なお、音声認識手段104は、次の遷移に、特殊遷移、および一般遷移の両方がある場合は、n番目以前の特徴量によってたどった遷移の履歴が、特殊遷移に合致する場合に、次の遷移が特殊遷移であると判断する。
(ステップS209)音声認識手段104は、n番目の特徴量に対応する特殊遷移が有する特殊発音記号に対応する用語を取得し、図示しない一時格納手段に蓄積する。
(ステップS210)音声認識手段104は、n番目の特徴量に対応する特殊遷移の次の状態へ移行する。なお、この処理によって、n番目の特徴量に対応する遷移が一つ先の遷移に変わったものとする。
(ステップS211)音声認識手段104は、カウンタnを1だけインクリメントする。そして、ステップS205へ戻る。
(ステップS212)出力手段105は、ステップS209で蓄積された、図示しない一時格納手段に格納されている用語を、その用語の境界が分かるように出力する。そして、ステップS201に戻る。
なお、図4のフローチャートでは、音声認識のバッチ処理を行う場合について説明したが、音声認識のリアルタイム処理を行う場合にも、同様に行うことができる。また、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以上のように、本実施の形態による音声認識装置1によれば、一般遷移が出力に関する情報を有さず、特殊遷移のみが出力に関する特殊発音記号を有することによって、そのようなデータ構造を有しないWFSTより、音声認識WFSTのデータ量を削減することができる。また、その音声認識WFSTでは、最適化済みであっても、特殊発音記号を有する特殊遷移が単語の境界に位置するため、音声認識時に単語の境界を特定することができるようになる。その結果、例えば、音声認識結果情報に、単語の境界と、その境界に対応する音声信号のタイムコードとを含めることができるようになる。また、そのような音声認識結果情報を用いることにより、音声認識結果の任意のテキストに対応する音声に容易にアクセスすることができ、ディクテーションソフトウェア等において有用である。
なお、本実施の形態では、特殊発音記号で識別される用語は、単語に関連する用語であれば良い。単語に関連する用語は、単語と同じ用語であっても良く、単語と異なる用語であっても良い。単語に関連する用語が単語と異なる用語の場合の用語は、その単語に関連する用語であって、発音の異なる用語であっても良い。単語とその単語に関連する用語であって、発音の異なる用語は、例えば、略語の単語と正式名称の用語であっても良く、標準語の単語と方言の用語であっても良く、上記組み合わせの逆の組み合わせであっても良く、他の関連のある組み合わせであっても良い。単語とその単語に関連する用語であって、発音の異なる用語は、具体的には、「電番」という単語に関連する「電話番号」であっても良く、「よい」と「ええ」等であっても良い。例えば、図3の特殊発音記号「#99999」を有するレコードでは、図2で示される音素列「denban(電番)」に対して、用語「電話番号」を対応付けている。特殊発音記号により、認識される単語と異なる用語が識別できることで、音声認識手段104が、音声認識の結果と異なる文字列を取得できる。これにより、例えば、標準語の音声信号を方言の文字列に変換すること等ができる。
また、人名を示す音声信号に対して、電話番号等を識別する特殊発音記号を登録することで、音声認識手段104が、発話された人名から電話番号を特定し、出力手段105が、電話番号を図示しない電話関連の処理を行う手段、または外部の電話装置に出力することで、電話をかけられるようにしても良い。
また、本実施の形態において、WFST格納手段101を含む場合について説明したが、音声認識装置1は、WFST格納手段101を含まなくても良い。音声認識装置1がWFST格納手段101を含まない場合は、音声認識手段104は、図示しない受付手段を介して、図示しない外部の装置から音声認識WFSTを受け付けても良く、図示しない取得手段を介して、音声認識WFSTを取得しても良い。
また、本実施の形態において、用語格納手段103を含む場合について説明したが、音声認識装置1は、用語格納手段103を含まなくても良い。音声認識装置1が用語格納手段103を含まない場合は、音声認識手段104は、図示しない受付手段を介して、図示しない外部の装置から特殊発音記号に対応する用語を受け付けても良く、図示しない取得手段を介して、特殊発音記号に対応する用語を取得しても良い。また、特殊発音記号は、用語そのものであっても良い。
また、本実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、コンピュータを、発話された音声を示す音声信号を受け付ける音声信号受付手段、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる1以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、音声認識結果情報を出力する出力手段として機能させるためのプログラムでっても良い。
また、本実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、コンピュータを、発話された音声を示す音声信号を受け付ける音声信号受付手段、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる1以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、音声認識結果情報を出力する出力手段として機能させるためのプログラムであっても良い。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の手段で実現されても良いことは言うまでもない。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行手段が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得手段や、情報を出力する出力手段等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図5は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。
図5において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図6は、コンピュータシステム1100の内部構成を示す図である。図6において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを蓄積するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に蓄積すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを蓄積するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。
コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に蓄積されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に蓄積されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」等と読み替えても良い。
以上のように、本発明にかかる音声認識装置等は、一部の遷移にのみ出力に関する特殊発音記号を付与するようにしたため、そうでないWFSTよりデータ量を削減できるという効果を有し、音声認識装置等として有用である。
1 音声認識装置
101 WFST格納手段
102 音声信号受付手段
103 用語格納手段
104 音声認識手段
105 出力手段

Claims (8)

  1. 発話された音声を示す音声信号を受け付ける音声信号受付手段と、
    入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、
    前記音声認識結果情報を出力する出力手段とを具備する音声認識装置。
  2. 発話された音声を示す音声信号を受け付ける音声信号受付手段と、
    入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、
    前記音声認識結果情報を出力する出力手段とを具備する音声認識装置。
  3. 前記音声認識手段は、
    前記特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得する、請求項1または2記載の音声認識装置。
  4. 前記単語に関する用語は、
    当該単語に対応する用語であって、当該単語と発音が異なる用語である、請求項1から請求項3のいずれか一項記載の音声認識装置。
  5. 音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
    前記音声信号受付手段が、発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
    前記音声認識手段が、入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識ステップと、
    前記出力手段が、前記音声認識結果情報を出力する出力ステップとを具備する音声認識方法。
  6. 音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
    前記音声信号受付手段が、発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
    前記音声認識手段が、入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識ステップと、
    前記出力手段が、前記音声認識結果情報を出力する出力ステップとを具備する音声認識方法。
  7. コンピュータを、
    発話された音声を示す音声信号を受け付ける音声信号受付手段、
    入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、
    前記音声認識結果情報を出力する出力手段として機能させるためのプログラム。
  8. コンピュータを、
    発話された音声を示す音声信号を受け付ける音声信号受付手段、
    入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる1以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのWFST(重み付き有限状態トランスデューサ)である音声認識WFSTを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、
    前記音声認識結果情報を出力する出力手段として機能させるためのプログラム。
JP2013175117A 2013-08-27 2013-08-27 音声認識装置、音声認識方法、およびプログラム Active JP5877823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013175117A JP5877823B2 (ja) 2013-08-27 2013-08-27 音声認識装置、音声認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013175117A JP5877823B2 (ja) 2013-08-27 2013-08-27 音声認識装置、音声認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015045668A JP2015045668A (ja) 2015-03-12
JP5877823B2 true JP5877823B2 (ja) 2016-03-08

Family

ID=52671241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013175117A Active JP5877823B2 (ja) 2013-08-27 2013-08-27 音声認識装置、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5877823B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102687184B1 (ko) 2017-02-10 2024-07-19 삼성전자주식회사 Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248977A (ja) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識方法
JP3995175B2 (ja) * 1998-04-22 2007-10-24 沖電気工業株式会社 自然言語解析のコスト決定装置
US7107205B2 (en) * 2000-04-03 2006-09-12 Xerox Corporation Method and apparatus for aligning ambiguity in finite state transducers
JP2006084942A (ja) * 2004-09-17 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
JP5175325B2 (ja) * 2010-11-24 2013-04-03 日本電信電話株式会社 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体

Also Published As

Publication number Publication date
JP2015045668A (ja) 2015-03-12

Similar Documents

Publication Publication Date Title
WO2017076222A1 (zh) 语音识别方法及装置
US8972260B2 (en) Speech recognition using multiple language models
JP6400936B2 (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN110807093A (zh) 语音处理方法、装置及终端设备
US20170270923A1 (en) Voice processing device and voice processing method
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP2011107314A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5877823B2 (ja) 音声認識装置、音声認識方法、およびプログラム
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP5701348B2 (ja) 音声認識装置、音声認識方法、およびプログラム
KR102067973B1 (ko) 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
JP2016180918A (ja) 音声認識システム、音声認識方法、プログラム
JP2011090483A (ja) 情報処理装置およびプログラム
JP5164041B2 (ja) 音声合成装置、音声合成方法、及びプログラム
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
TW201828279A (zh) 語音識別方法及裝置
JP6244731B2 (ja) 情報処理装置及び情報処理プログラム
CN113763921B (zh) 用于纠正文本的方法和装置
CN112447169B (zh) 一种词边界估计方法、装置及电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160126

R150 Certificate of patent or registration of utility model

Ref document number: 5877823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533