JP2021503104A

JP2021503104A - 自動音声認識装置及び方法

Info

Publication number: JP2021503104A
Application number: JP2020545027A
Authority: JP
Inventors: ファン，ミョンジン; ジ，チャンジン
Original assignee: Llsollu Co Ltd
Current assignee: Llsollu Co Ltd
Priority date: 2017-11-14
Filing date: 2018-11-06
Publication date: 2021-02-04
Also published as: KR20190054850A; EP3712886A1; WO2019098589A1; EP3712886A4; CN111357049A; US20210174789A1; KR102075796B1

Abstract

本発明による自動音声認識装置は、インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させるプロセッサーとを含み、前記プロセッサーは、前記プログラムを実行させることによって、前記受信した音声データを予め学習された第１モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第２モデルに基づいて録取録データに変換する。

Description

本発明は自動音声認識装置及び方法に関するものであり、具体的には、歪みのない音声特徴を抽出するための自動音声認識装置及び方法に関するものである。

自動音声認識（ＳｐｅｅｃｈＴｏＴｅｘｔ、ＳＴＴ）とは生音声データをそれに合う文字列に自動的に変換する電算技法で、放送、電話相談、録取、通訳、ビッグデータ分析などの多様な分野で音声データ分析に対する需要が漸次に高まっている。

このような自動音声認識は、大体音響モデルを利用して音声で特徴を抽出して、記号化するステップと、言語モデルを利用して、記号化された複数の候補の中で文脈に合う適切な候補を選択するステップとで構成されることができる。

一方、源泉データが音声である場合、必要な情報を直接抽出することができないので、文字列に変換する過程が不可欠であるが、このような過程が手作業で行われる場合、多くの時間と費用が必要であるという問題があり、このような問題を解消するために高速で正確な自動音声認識に対する需要が高まっていることが実情である。

使用可能な良質の音声認識器を作るためには、音声データと、それに合う文字列データ、即ち、音声−文字列で構成される並列データを大量に構築する必要がある。

また、実際発音と表記が異なる場合が多くて、関連情報を追加してくれることができるプログラムまたは発音−表記変換規則データを構築しなければならない。

そこで、国内外の主要言語に対しては、様々なメーカーで音声−文字列並列データと発音−表記変換規則データを既に確保しており、一定以上の音声認識品質を確保している。

しかしながら、音声−文字列並列データや発音−表記変換規則の非完結性の問題と、発音−表記変換規則によって発生する多様な両義性によるデータ歪み問題は、音声認識品質を落とす要因として作用している。

また、新規言語のための認識器を開発する場合、音声−文字列並列データと発音−表記変換規則を構築する過程で、たくさんの金銭的、時間的費用が発生し、良質のデータを得ることも容易でないことが実情である。

本発明の実施例は、音声認識のための学習データによる情報の歪みを防止し、低費用のデータで良質の性能を確保し、既に開発された音声認識器を利用して、第３言語のための音声認識器を最小の費用で構築することができるようにする自動音声認識装置及び方法を提供することにある。

但し、本実施例が解決しようとする技術的課題は、前記したような技術的課題に限定されず、また他の技術的課題が存在することができる。

上述した技術的課題を達成するための技術的手段として、本発明の第１側面による自動音声認識装置は、インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させるプロセッサーとを含む。この時、前記プロセッサーは、前記プログラムを実行させることによって、前記受信した音声データを予め学習された第１モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第２モデルに基づいて録取録データに変換する。

前記予め学習された第１モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、音声データ及び発音コードデータで構成された並列データに基づいて学習されることができる。

前記変換された発音コードデータは、１次元構造で表現可能な１以上の長さを有する音素または音の特徴値列で構成されることができる。

前記変換された発音コードデータは、言語独立的な値で構成されることができる。

前記予め学習された第２モデルは、発音コード−録取録変換モデルであり、前記発音コード−録取録変換モデルは、発音コードデータ及び録取録データで構成された並列データに基づいて学習されることができる。

前記予め学習された第２モデルは発音コード−録取録変換モデルであり、前記第２モデルは、シーケンス（ｓｅｑｕｅｎｃｅ）形態の発音コードをシーケンス形態の録取録に一度に変換することができる。

前記予め学習された第１モデルは音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、予め用意された音声データに基づいて非監督学習されて生成されることができる。

前記予め用意された音声データは、録取録データとともに並列データで構成されることができる。

前記予め学習された第２モデルは発音コード−録取録変換モデルであり、前記プロセッサーは、前記予め学習された音声−発音コード変換モデルに基づいて、前記並列データに含まれた音声データに対応するよう発音コードデータに変換し、前記予め学習された発音コード−録取録変換モデルは、前記プロセッサーによって前記音声データに対応するように変換された発音コードデータ及び前記録取録データで構成された並列データに基づいて学習されることができる。

前記プロセッサーは、予め用意された音節−発音辞典データを用いて前記変換された発音コードデータから文字候補列を生成し、コーパスデータに基づいて学習された言語モデルである前記第２モデルを通じて前記生成された文字候補列から前記録取録データに変換することができる。

また、本発明の第２側面による自動音声認識方法は、音声データを受信するステップと、前記受信した音声データを予め学習された第１モデルに基づいて発音コードデータに変換するステップと、前記変換された発音コードデータを予め学習された第２モデルに基づいて録取録データに変換するステップと、を含む。

前述した本発明の課題解決手段の中のいずれか一つによれば、音声認識のための学習データによる情報の歪みを防止することができる。

また、自動音声認識器の構築時に、金銭的、時間的費用を削減することができ、正確度の面で高品質の自動音声認識器の結果物を確保することができる。

本発明による自動音声認識装置のブロック図である。本発明による自動音声認識装置での自動音声認識方法の順序図である。本発明の第１実施例による自動音声認識方法の順序図である。本発明の第２実施例による自動音声認識方法の順序図である。本発明の第３実施例による自動音声認識方法の順序図である。本発明の第４実施例による自動音声認識方法の順序図である。

以下では、添付した図面を参照して、本発明が属する技術分野で通常の知識を有する者が容易に実施することができるように、本発明の実施例について詳細に説明する。しかしながら、本発明は各種異なる形態で具現されることができ、ここで説明する実施例に限定されない。そして図面で本発明を明確に説明するために説明と関係ない部分は省略した。

明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対される記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。

図１は、本発明による自動音声認識装置１００のブロック図である。

本発明による自動音声認識装置１００は、メモリ１１０と、プロセッサー１２０と、を含む。

メモリ１１０には、音声を自動的に認識するためのプログラム、即ち、音声データを録取録データに変換して出力するためのプログラムが格納される。ここで、メモリ１１０は、電源が供給されなくても保存された情報を保持し続ける不揮発性記憶装置及び揮発性記憶装置を通称するものである。

例えば、メモリ１１０は、コンパクトフラッシュ（登録商標）（ｃｏｍｐａｃｔｆｌａｓｈ；ＣＦ）カード、ＳＤ（ｓｅｃｕｒｅｄｉｇｉｔａｌ）カード、メモリスティック（ｍｅｍｏｒｙｓｔｉｃｋ）、ソリッド・ステート・ドライブ（ｓｏｌｉｄ−ｓｔａｔｅｄｒｉｖｅ；ＳＳＤ）とマイクロ（ｍｉｃｒｏ）ＳＤカードなどのようなＮＡＮＤ型フラッシュメモリ（ＮＡＮＤｆｌａｓｈｍｅｍｏｒｙ）、ハードディスクドライブ（ｈａｒｄｄｉｓｋｄｒｉｖｅ；ＨＤＤ）などのような磁気コンピュータ記憶装置、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどのようなオプティカルディスクドライブ（ｏｐｔｉｃａｌｄｉｓｃｄｒｉｖｅ）などを含むことができる。

プロセッサー１２０は、メモリ１１０に格納されたプログラムを実行させる。プロセッサー１２０は、プログラムを実行させることによって、入力された音声データから録取録データを生成する。

一方、自動音声認識装置は、インターフェースモジュール１３０及び通信モジュール１４０をさらに含むことができる。

インターフェースモジュール１３０は、使用者の音声データを受信するためのマイク１３１と、音声データから変換された録取録データを出力するためのディスプレイ部１３３とを含む。

通信モジュール１４０は、スマートフォン、タブレットＰＣ、ラップトップなどのような使用者端末と音声データ、録取録データなどのデータを送受信するための構成である。このような通信モジュールは、有線通信モジュール及び無線通信モジュールを全部含むことができる。有線通信モジュールは、電力線通信装置、電話回線通信装置、ケーブルホーム（ＭｏＣＡ）、イーサネット（Ｅｔｈｅｒｎｅｔ）、ＩＥＥＥ１２９４、統合有線ホームネットワーク及びＲＳ−４８５制御装置で具現されることができる。また、無線通信モジュールは、ＷＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ）、Ｂｌｕｅｔｏｏｔｈ、ＨＤＲＷＰＡＮ、ＵＷＢ、ＺｉｇＢｅｅ、ＩｍｐｕｌｓｅＲａｄｉｏ、６０ＧＨｚＷＰＡＮ、Ｂｉｎａｒｙ−ＣＤＭＡ、無線ＵＳＢ技術及び無線ＨＤＭＩ（登録商標）技術などで具現されることができる。

一方、本発明による自動音声認識装置は、上述した使用者端末とそれぞれ個別に形成されることができるが、必ずしもこれに限定されない。つまり、自動音声認識装置１００のメモリ１１０に格納されたプログラムが使用者端末のメモリに含まれて、アプリケーションなどの形態で実施されることができることももちろんである。

以下では、図２〜図６を参照して、本発明による自動音声認識装置１００のプロセッサー１２０によって実行される各ステップについてより具体的に説明する。

参考として、本発明の実施例による図１に示された構成要素は、ソフトウェアまたはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのようなハードウェア形態で具現されることができ、所定の役割を実行することができる。

しかしながら、『構成要素』は、ソフトウェアまたはハードウェアに限定される意味ではなく、各構成要素はアドレッシングすることができる記憶媒体にあるように構成することもでき、１つまたはそれ以上のプロセッサーを再生させるように構成されることもできる。

従って、一例として、構成要素は、複数のソフトウェア構成要素、複数のオブジェクト指向ソフトウェア構成要素、複数のクラス構成要素及び複数のタスク構成要素のような構成要素と、複数のプロセス、複数の関数、複数の属性、複数のプロシージャ、複数のサブルーチン、複数のプログラムコードのセグメント、複数のドライバ、複数のファームウェア、複数のマイクロコード、回路、データ、データベース、複数のデータ構造、複数のテーブル、複数のアレイ、及び複数の変数を含む。

複数の構成要素とその複数の構成要素の中で提供される機能は、より少ない数の構成要素で結合されたり、追加的な構成要素にさらに分離されることができる。

図２は、本発明による自動音声認識装置１００での自動音声認識方法の順序図である。

本発明による自動音声認識方法は、まず、マイク１３１を通じて音声データを受信すると（Ｓ２１０）、プロセッサー１２０は、受信した音声データを予め学習された第１モデルに基づいて発音コードデータに変換する（Ｓ２２０）。

次に、プロセッサー１２０は、変換された発音コードデータを予め学習された第２モデルに基づいて録取録データに変換する（Ｓ２３０）。

このように変換された録取録データは、通信モジュール１４０を通じて使用者端末に送信されるか、自動音声認識装置１００自体のディスプレイ部１３３を通じて出力されて提供されることができる。

このような自動音声認識方法は、予め用意された事前準備データを利用して、モデルトレーニングステップを通じて第１モデル及び第２モデルをトレーニングし、トレーニングされた第１モデル及び第２モデルを利用して、デコーディングステップを通じて受信した音声データを録取録データに変換する。

以下では、事前準備データと、第１モデル及び第２モデルに対するそれぞれの具体的なケースをベースに、本発明による自動音声認識方法に対する第１実施例〜第４実施例についてより具体的に説明する。

図３は、本発明の第１実施例による自動音声認識方法の順序図である。

本発明の第１実施例による自動音声認識方法は、事前データとして音声データ、発音コードデータ及び録取録データで構成された並列データを利用することができる。

このような並列データの中、音声データと発音コードデータで構成された並列データに基づいて第１モデルである音声−発音コード変換モデルは学習されることができる（Ｓ３０１）。

この時、本発明の第１実施例で、前記第１モデルの学習方法は、通常の音声認識での音声−音素学習部分を利用することができる。

この時、音声データ及び発音コードデータで構成された並列データの発音コードは、表記法などによる音声の異形態表現なしにできるだけ音をそのまま表すことができる値で表現されていなければならない。これは、音声を記号化する際の両義性を減少して学習とデコーディング時の歪みを最小化することができる。また、関連発音変化及び逆変換アルゴリズム（例えば、ウムルアン−＞ウムラン、ウムラン−＞ウムルアン）が必要でなく、単語の間の連音などによる単語の境界が破壊（例えば、イエプンアンム−＞イエプナンム、イエプ＿ナンム？）されることをどのように処理すべきかについて考慮しなくてもよい。

また、この時に変換される発音コードデータは、単語単位で学習しないで、１次元構造で表現可能な１以上の長さを有する音素または音の特徴値列で構成されることができる。これは、音声−発音コード変換（デコーディング）時点で、単語に変換する時に必要な複雑な資料構造（グラフ）が必要でなく、十分でない文脈（通常の単語内）で単語を推測しながら発生する誤認識（例えば、歪み：ラン−＞ラン？ナン？アン？）もないという長所がある。

一方、発音コードデータは、発音の外に声調やイントネーション、休止などを表現する値を含むことができる。

また、発音コードの形態は、文字形態の音声記号であってもよく、一つ以上の数字で構成された値の組み合わせであってもよく、数字と文字が混在された一つ以上の値の組み合わせで構成されてもよい。

本発明の第１実施例で、前記第２モデルである発音コード−録取録変換モデルは、前記並列データの中で、発音コードデータと録取録データで構成された並列データに基づいて学習することができる（Ｓ３０２）。

この時、前記第２モデルを学習する方法としては、シーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）形態の学習が可能なＣＮＮ、ＲＮＮなどのＤＮＮを含めてＨＭＭなど通常の学習方法を適用してトレーニングさせることができる。

このように、第１モデル及び第２モデルである音声−発音コード変換モデルと発音コード−録取録変換モデルが学習されると、本発明の第１実施例による自動音声認識方法は、インターフェースモジュール１３０のマイク１３１や使用者端末から音声データを受信し（Ｓ３１０）、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する（Ｓ３２０）。

音声データが発音コードデータに変換されると、次に変換された発音コードデータを発音コード−録取録変換モデルを利用して録取録データに変換し、変換された録取録データは、ディスプレイ部１３３を通じて出力されたり、使用者端末に提供されることができる（Ｓ３３０）。

このような第１実施例による自動音声認識方法は、音声−発音コード変換モデルを学習する音響モデルトレーニングステップと、発音コード−録取録変換モデルを学習する録取録生成モデルトレーニングステップの二つの学習過程がそれぞれシーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）変換が可能な構造であるので、２段階にわたるエンドトゥエンドの（ｅｎｄ−ｔｏ−ｅｎｄ）ＤＮＮ構造で構成可能である。

通常の音声認識システムと、第１実施例の最大の相違点は、音声モデル（つまり、音声−発音コード変換モデル）の結果物が言語独立的な音素であるという点である。

人間が発声可能な音素は限られている。従って、発音コードは、特定の言語に依存しないように汎用的に設計可能である。これは、その言語を知らない人も発音コードに転写することができるという意味である。また、これは、特定の言語のための音声モデルの学習時に、他の言語データを利用することができるという意味である。従って、本発明の第１実施例は、従来技術とは異なり、すでに確保した複数の言語用データを用いて、言語に独立的（汎用）音響モデルを学習することができる。

また、第１実施例の音響モデルの出力は、両義性がなく、正確度の高い（歪みのない）音素情報列であるので、以降の過程であるシーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）モデルに汚染されない入力を提供することができる。シーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）での問題は、最近ＤＮＮベースの高品質の技法の開発により解消可能であり、特に発音コード−録取録の変換での問題は、自動翻訳のように文脈情報を文章全体ではなく、いくつかの単語内でインポートすればいいので、正確度や速度も問題ない。

また、第１実施例の録取録の変換過程で、シーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）形態のディープラーニングを適用することにより、文脈情報の使用範囲を学習過程で容易に調節することができる。また、モデルのサイズが従来の言語モデルに比べてネズミ算式に増加しないという長所がある。従って、文脈情報の使用範囲を適切に適用して、音声認識の過程で文脈と脈絡に全く合わない単語が現れることを最小化して、自然な文章を生成することができる。

図４は、本発明の第２実施例による自動音声認識方法の順序図である。

本発明の第２実施例による自動音声認識方法は、事前データとして音声データと録取録データのみで構成された並列データを利用するという点で、第１実施例と差がある。

具体的には、第２実施例は、前記並列データの中で、音声データのみを利用して、第１モデルである音声−発音コード変換モデルを非監督学習することができる（Ｓ４０１）。

この時、音声データのみを利用して、非監督学習を利用することが効果的である理由は、学習目標が少ない数の限られた発音コードであり（人間の発声可能な発音は限定的ある）、同一発音−同一コード形態で学習するからである。

このような非監督学習方法としては、群集化技法、強化学習など通常の方法を適用することができる。例えば、群集化技法は、特定の音声区間で抽出した特徴値を、他の区間で抽出した特徴値や他の群集の中間値と一々対照して、数学的に最も近いもの同士を同じ群集に定める過程を繰り返して、群集の数が一定の数以内になるまで繰り返す。そして、強化学習は、出力（分類コード）を任意の数に決めた後、特定の音声区間で抽出した特徴値の分類結果が両義性が少ない（明確性が大きい）方向に指導して学習することができる。

一方、本発明の第２実施例における第２モデルである発音コード−録取録変換モデルは、発音コードデータと録取録データで構成された並列データを利用して第１実施例と同じ方法で学習することができる（Ｓ４０２）。

この時、発音コードデータと録取録データで構成された並列データは、音声−録取録並列データを音声−発音コード−録取録並列データに自動に変換して取得する。この時の自動変換は、音声−発音コード変換モデルを用いて音声で発音コードを自動的に生成することにより可能である。

このように、第１モデル及び第２モデルである音声−発音コード変換モデルと発音コード−録取録変換モデルが学習されると、本発明の第２実施例による自動音声認識方法は、音声データを受信し（Ｓ４１０）、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する（Ｓ４２０）。

次に、変換された発音コードデータを発音コード−録取録変換モデルを利用して録取録データに変換する（Ｓ４３０）。

このような第２実施例による自動音声認識方法は、非監督音響モデルトレーニングステップと、録取録の生成モデルトレーニングステップの二つの学習過程がそれぞれシーケンス・トゥ・シーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）変換が可能な構造であるので、２段階にわたるエンドツーエンド（ｅｎｄ−ｔｏ−ｅｎｄ）ＤＮＮ構造で構成が可能である。

このように、本発明の第２実施例は、音声−発音コード並列データを予め用意しなくて済むよう非監督音響モデルトレーニングが導入されたことを特徴とする。

図５は、本発明の第３実施例による自動音声認識方法の順序図である。

本発明の第３実施例による自動音声認識方法は、事前データとして音声データ、音節−発音辞典データ及びコーパスデータが必要であり、それぞれは並列データで構成される必要がなく、独立的に構成されることができる。

第３実施例は、第２実施例のように、音声データのみを利用して、第１モデルである音声−発音コード変換モデルを非監督学習することができる（Ｓ５０１）。

次に、予め用意されたコーパスデータに基づいて、第２モデルである言語モデルを学習して生成する（Ｓ５０２）。この時、コーパスデータは、並列コーパスである必要はなく、言語モデルは、文字単位で追跡して文章を生成することができるモデルを意味する。

このように、第１モデル及び第２モデルである音声−発音コード変換モデルと言語モデルが学習されると、本発明の第３実施例による自動音声認識方法は、音声データを受信し（Ｓ５１０）、受信した音声データを音声−発音コード変換モデルを利用して発音コードデータに変換する（Ｓ５２０）。

次に、変換された発音コードデータを予め用意された音節−発音辞典データを利用して、表記可能な文字（音節）候補列を生成する（Ｓ５３０）。

次に、コーパスデータに基づいて学習された言語モデルを通じて、前記生成された文字候補列を録取録データに変換する（Ｓ５４０）。

この時、本発明の第３実施例による自動音声認識方法は、発音コード−文字生成ステップ（Ｓ５３０）と、文字候補−録取録生成ステップ（Ｓ５４０）との間に単語の生成ステップが追加されることができ、この場合、単語辞典をさらに利用することができる。

一方、本発明の第３実施例による自動音声認識方法で発音コードデータを発音に変換する知識は、手動、半自動または自動に構築されることができる。

例えば、発音コードを発音に変換する知識を自動的に構築する場合には、大容量の音声−録取録並列データを既に構築された音声−発音コード変換モデルを通じて発音コードを生成し、生成された発音コード列の何れのピースと並列コーパスに対応する録取録の特定の音節を比較して分布統計などが数学的に類似したものを探す過程を繰り返すことにより、音節−発音対を見つけることが可能である。

他の方法としては、バイト対符号化（ｂｙｔｅｐａｉｒｅｎｃｏｄｉｎｇ）を発音コード列とコーパスに同様に適用することでも音節−発音対を見つけることができる。

何れの方法でもエラーが発生する虞があるが、対象コーパスを増加すれば、エラーは減り、エラーが内包されたとしても、低い確率を有するので、結果に及ぼす影響は低くなる。

このような本発明の第３実施例による自動音声認識方法の場合、非監督音響モデルトレーニングステップ、音声−発音コード変換ステップ、言語モデルトレーニングステップ、発音コード−文字生成ステップ及び文字候補−録取録生成ステップの５つのステップを通じて完全に非監督学習が可能であることが特徴である。

ただし、この場合、音節−発音辞典は別途に構成する必要がある。音節−発音辞典を自動的に構築するには、並列コーパスが必要であるか、並列コーパスなしに手作業で構築することもできる。また、音節辞典であるので、その大きさが単語辞典ほど膨大でなく限定的である。

図６は、本発明の第４実施例による自動音声認識方法の順序図である。

本発明の第４実施例による自動音声認識方法は、事前データとして音節−発音辞典データとコーパスデータとともに、音声データ及び発音コードデータで構成された並列データが必要である点で第３実施例と差がある。

具体的には、第４実施例は、音声データと発音コードデータで構成された並列データに基づいて、第１モデルである音声−発音コード変換モデルが学習されることができる（Ｓ６０１）。

次に、第３実施例のように、予め用意されたコーパスデータに基づいて、第２モデルである言語モデルを学習して生成する（Ｓ６０２）。

このように、第１モデル及び第２モデルである音声−発音コード変換モデルと言語モデルが学習されると、本発明の第４実施例による自動音声認識方法は、音声データを受信し（Ｓ６１０）、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する（Ｓ６２０）。

次に、変換された発音コードデータを予め用意された音節−発音辞典データを利用して、表記可能な文字候補列を生成する（Ｓ６３０）。

次に、コーパスデータに基づいて学習された言語モデルを通じて、前記生成された文字候補列を録取録データに変換する（Ｓ６４０）。

上述した説明では、ステップＳ２１０〜Ｓ６４０は、本発明の具現例によって、追加的なステップにさらに分割されたり、より少ないステップで組み合わせることができる。また、一部のステップは、必要によって省略されることもでき、ステップの間の順序が変更されることもできる。また、その他の省略された内容であっても、図１における自動音声認識装置１００について既に記載された内容は、図２〜図６の自動音声認識方法にも適用される。

一方、第１実施例〜第４実施例による自動音声認識方法は、発音と発音コードとの間の両義性のない一対一の関係を有する。従って、必ずしも特定の言語のみに限定されるのではなく、言語が変わることによって発音法則が変わり、発音−記号の間の代入関係が変わるようになる現象がないという長所がある。

それにより、本発明の音声−発音コード変換モデルは、全ての言語圏で再学習することなく同一に使用することができる。

また、前記の特性により、本発明による自動音声認識方法は、音声−発音コード変換学習過程で必要な音声データを特定の言語に限定しなくてもいいという長所がある。

また、本発明は、第２実施例及び第３実施例のように、音響モデルを非監督学習したり、第１実施例及び第４実施例のように、半自動低費用で構築することによって、低費用及び大容量の学習を通じた音響モデル認識性能を向上させることができるという長所がある。

本発明の一実施例による自動音声認識装置１００における自動音声認識方法は、コンピュータによって実行される媒体に格納されたコンピュータプログラムまたはコンピュータによって実行可能な命令を含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる何れの利用可能な媒体であってもよく、揮発性及び不揮発性媒体、分離型及び非分離型媒体を全部含む。また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体及び通信媒体を全部含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令語、データ構造、プログラムモジュール、またはその他のデータのような情報の格納のための何れの方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体を全部含む。通信媒体は、典型的にコンピュータ読み取り可能な命令語、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他のトランスポートメカニズムを含み、何れの情報伝達媒体を含む。

本発明の方法及びシステムは特定の実施例と関連して説明されたが、それらの構成要素または動作の一部または全部は、汎用ハードウェアアーキテクチャを有するコンピュータシステムを使用して具現されることができる。

前述した本発明の説明は例示のためのものであり、本発明が属する技術分野において通常の知識を有する者は、本発明の技術的思想や必須的特徴を変更せずに、他の具体的な形態に容易に変形が可能であることを理解すべきである。従って、以上で記述した実施例は、全ての面で例示的なものであり、限定的ではないことを理解すべきである。例えば、単一型に説明されている各構成要素は分散されて実施されることもでき、同様に分散されて説明されている構成要素も結合された形態で実施されることができる。

本発明の範囲は、前述の詳細な説明ではなく特許請求範囲によって定められ、特許請求範囲の意味及び範囲、そしてその均等な概念から導出される全ての変更または変形された形態が本発明の範囲に含まれるものと解釈されるべきである。

本発明は多様な音声認識技術分野に適用されることができ、自動音声認識装置及び方法を提供することができる。このような特徴により、音声認識のための学習データによる情報の歪みを防止することができる。

１００：自動音声認識装置
１１０：メモリ
１２０：プロセッサー
１３０：インターフェースモジュール
１３１：マイク
１３３：ディスプレイ部
１４０：通信モジュール

Claims

自動音声認識装置において、
インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、
前記メモリに格納されたプログラムを実行させるプロセッサーとを含み、
前記プロセッサーは前記プログラムを実行させることによって、前記受信した音声データを予め学習された第１モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第２モデルに基づいて録取録データに変換するものである自動音声認識装置。
前記予め学習された第１モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、音声データ及び発音コードデータで構成された並列データに基づいて学習されたものである請求項１に記載の自動音声認識装置。
前記変換された発音コードデータは、１次元構造で表現可能な１以上の長さを有する音素や音の特徴値列で構成されるものである請求項２に記載の自動音声認識装置。
前記変換された発音コードデータは言語独立的な値で構成されるものである請求項２に記載の自動音声認識装置。
前記予め学習された第２モデルは、発音コード−録取録変換モデルであり、前記発音コード−録取録変換モデルは発音コードデータ及び録取録データで構成された並列データに基づいて学習されるものである請求項１に記載の自動音声認識装置。
前記予め学習された第２モデルは、発音コード−録取録変換モデルであり、前記第２モデルは、シーケンス形態の発音コードをシーケンス形態の録取録に一度に変換する請求項１に記載の自動音声認識装置。
前記予め学習された第１モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、予め用意された音声データに基づいて非監督学習されて生成されるものである請求項１に記載の自動音声認識装置。
前記予め用意された音声データは録取録データとともに並列データで構成されるものである請求項７に記載の自動音声認識装置。
前記予め学習された第２モデルは発音コード−録取録変換モデルであり、
前記プロセッサーは、前記予め学習された音声−発音コード変換モデルに基づいて前記並列データに含まれた音声データに対応するように発音コードデータに変換し、
前記予め学習された発音コード−録取録変換モデルは、前記プロセッサーにより前記音声データに対応するように変換された発音コードデータ及び前記録取録データで構成された並列データに基づいて学習されたものである請求項８に記載の自動音声認識装置。
前記プロセッサーは、予め用意された音節−発音辞典データを用いて前記変換された発音コードデータから文字候補列を生成し、コーパスデータに基づいて学習された言語モデルである前記第２モデルを通じて前記生成された文字候補列から前記録取録データに変換するものである請求項２または７に記載の自動音声認識装置。
自動音声認識方法において、
音声データを受信するステップと、
前記受信した音声データを予め学習された第１モデルに基づいて発音コード列に変換するステップと、
前記変換された発音コード列を予め学習された第２モデルに基づいて録取録データに変換するステップと、を含む、自動音声認識方法。