JP2021503104A - 自動音声認識装置及び方法 - Google Patents

自動音声認識装置及び方法 Download PDF

Info

Publication number
JP2021503104A
JP2021503104A JP2020545027A JP2020545027A JP2021503104A JP 2021503104 A JP2021503104 A JP 2021503104A JP 2020545027 A JP2020545027 A JP 2020545027A JP 2020545027 A JP2020545027 A JP 2020545027A JP 2021503104 A JP2021503104 A JP 2021503104A
Authority
JP
Japan
Prior art keywords
data
recording
model
voice
learned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020545027A
Other languages
English (en)
Other versions
JPWO2019098589A5 (ja
Inventor
ファン,ミョンジン
ジ,チャンジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Llsollu Co Ltd
Original Assignee
Llsollu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Llsollu Co Ltd filed Critical Llsollu Co Ltd
Publication of JP2021503104A publication Critical patent/JP2021503104A/ja
Publication of JPWO2019098589A5 publication Critical patent/JPWO2019098589A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本発明による自動音声認識装置は、インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させるプロセッサーとを含み、前記プロセッサーは、前記プログラムを実行させることによって、前記受信した音声データを予め学習された第1モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第2モデルに基づいて録取録データに変換する。

Description

本発明は自動音声認識装置及び方法に関するものであり、具体的には、歪みのない音声特徴を抽出するための自動音声認識装置及び方法に関するものである。
自動音声認識(Speech To Text、STT)とは生音声データをそれに合う文字列に自動的に変換する電算技法で、放送、電話相談、録取、通訳、ビッグデータ分析などの多様な分野で音声データ分析に対する需要が漸次に高まっている。
このような自動音声認識は、大体音響モデルを利用して音声で特徴を抽出して、記号化するステップと、言語モデルを利用して、記号化された複数の候補の中で文脈に合う適切な候補を選択するステップとで構成されることができる。
一方、源泉データが音声である場合、必要な情報を直接抽出することができないので、文字列に変換する過程が不可欠であるが、このような過程が手作業で行われる場合、多くの時間と費用が必要であるという問題があり、このような問題を解消するために高速で正確な自動音声認識に対する需要が高まっていることが実情である。
使用可能な良質の音声認識器を作るためには、音声データと、それに合う文字列データ、即ち、音声−文字列で構成される並列データを大量に構築する必要がある。
また、実際発音と表記が異なる場合が多くて、関連情報を追加してくれることができるプログラムまたは発音−表記変換規則データを構築しなければならない。
そこで、国内外の主要言語に対しては、様々なメーカーで音声−文字列並列データと発音−表記変換規則データを既に確保しており、一定以上の音声認識品質を確保している。
しかしながら、音声−文字列並列データや発音−表記変換規則の非完結性の問題と、発音−表記変換規則によって発生する多様な両義性によるデータ歪み問題は、音声認識品質を落とす要因として作用している。
また、新規言語のための認識器を開発する場合、音声−文字列並列データと発音−表記変換規則を構築する過程で、たくさんの金銭的、時間的費用が発生し、良質のデータを得ることも容易でないことが実情である。
本発明の実施例は、音声認識のための学習データによる情報の歪みを防止し、低費用のデータで良質の性能を確保し、既に開発された音声認識器を利用して、第3言語のための音声認識器を最小の費用で構築することができるようにする自動音声認識装置及び方法を提供することにある。
但し、本実施例が解決しようとする技術的課題は、前記したような技術的課題に限定されず、また他の技術的課題が存在することができる。
上述した技術的課題を達成するための技術的手段として、本発明の第1側面による自動音声認識装置は、インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させるプロセッサーとを含む。この時、前記プロセッサーは、前記プログラムを実行させることによって、前記受信した音声データを予め学習された第1モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第2モデルに基づいて録取録データに変換する。
前記予め学習された第1モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、音声データ及び発音コードデータで構成された並列データに基づいて学習されることができる。
前記変換された発音コードデータは、1次元構造で表現可能な1以上の長さを有する音素または音の特徴値列で構成されることができる。
前記変換された発音コードデータは、言語独立的な値で構成されることができる。
前記予め学習された第2モデルは、発音コード−録取録変換モデルであり、前記発音コード−録取録変換モデルは、発音コードデータ及び録取録データで構成された並列データに基づいて学習されることができる。
前記予め学習された第2モデルは発音コード−録取録変換モデルであり、前記第2モデルは、シーケンス(sequence)形態の発音コードをシーケンス形態の録取録に一度に変換することができる。
前記予め学習された第1モデルは音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、予め用意された音声データに基づいて非監督学習されて生成されることができる。
前記予め用意された音声データは、録取録データとともに並列データで構成されることができる。
前記予め学習された第2モデルは発音コード−録取録変換モデルであり、前記プロセッサーは、前記予め学習された音声−発音コード変換モデルに基づいて、前記並列データに含まれた音声データに対応するよう発音コードデータに変換し、前記予め学習された発音コード−録取録変換モデルは、前記プロセッサーによって前記音声データに対応するように変換された発音コードデータ及び前記録取録データで構成された並列データに基づいて学習されることができる。
前記プロセッサーは、予め用意された音節−発音辞典データを用いて前記変換された発音コードデータから文字候補列を生成し、コーパスデータに基づいて学習された言語モデルである前記第2モデルを通じて前記生成された文字候補列から前記録取録データに変換することができる。
また、本発明の第2側面による自動音声認識方法は、音声データを受信するステップと、前記受信した音声データを予め学習された第1モデルに基づいて発音コードデータに変換するステップと、前記変換された発音コードデータを予め学習された第2モデルに基づいて録取録データに変換するステップと、を含む。
前述した本発明の課題解決手段の中のいずれか一つによれば、音声認識のための学習データによる情報の歪みを防止することができる。
また、自動音声認識器の構築時に、金銭的、時間的費用を削減することができ、正確度の面で高品質の自動音声認識器の結果物を確保することができる。
本発明による自動音声認識装置のブロック図である。 本発明による自動音声認識装置での自動音声認識方法の順序図である。 本発明の第1実施例による自動音声認識方法の順序図である。 本発明の第2実施例による自動音声認識方法の順序図である。 本発明の第3実施例による自動音声認識方法の順序図である。 本発明の第4実施例による自動音声認識方法の順序図である。
以下では、添付した図面を参照して、本発明が属する技術分野で通常の知識を有する者が容易に実施することができるように、本発明の実施例について詳細に説明する。しかしながら、本発明は各種異なる形態で具現されることができ、ここで説明する実施例に限定されない。そして図面で本発明を明確に説明するために説明と関係ない部分は省略した。
明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対される記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。
図1は、本発明による自動音声認識装置100のブロック図である。
本発明による自動音声認識装置100は、メモリ110と、プロセッサー120と、を含む。
メモリ110には、音声を自動的に認識するためのプログラム、即ち、音声データを録取録データに変換して出力するためのプログラムが格納される。ここで、メモリ110は、電源が供給されなくても保存された情報を保持し続ける不揮発性記憶装置及び揮発性記憶装置を通称するものである。
例えば、メモリ110は、コンパクトフラッシュ(登録商標)(compact flash;CF)カード、SD(secure digital)カード、メモリスティック(memory stick)、ソリッド・ステート・ドライブ(solid−state drive;SSD)とマイクロ(micro)SDカードなどのようなNAND型フラッシュメモリ(NAND flash memory)、ハードディスクドライブ(hard disk drive;HDD)などのような磁気コンピュータ記憶装置、CD−ROM、DVD−ROMなどのようなオプティカルディスクドライブ(optical disc drive)などを含むことができる。
プロセッサー120は、メモリ110に格納されたプログラムを実行させる。プロセッサー120は、プログラムを実行させることによって、入力された音声データから録取録データを生成する。
一方、自動音声認識装置は、インターフェースモジュール130及び通信モジュール140をさらに含むことができる。
インターフェースモジュール130は、使用者の音声データを受信するためのマイク131と、音声データから変換された録取録データを出力するためのディスプレイ部133とを含む。
通信モジュール140は、スマートフォン、タブレットPC、ラップトップなどのような使用者端末と音声データ、録取録データなどのデータを送受信するための構成である。このような通信モジュールは、有線通信モジュール及び無線通信モジュールを全部含むことができる。有線通信モジュールは、電力線通信装置、電話回線通信装置、ケーブルホーム(MoCA)、イーサネット(Ethernet)、IEEE1294、統合有線ホームネットワーク及びRS−485制御装置で具現されることができる。また、無線通信モジュールは、WLAN(wireless LAN)、Bluetooth、HDR WPAN、UWB、ZigBee、Impulse Radio、60GHz WPAN、Binary−CDMA、無線USB技術及び無線HDMI(登録商標)技術などで具現されることができる。
一方、本発明による自動音声認識装置は、上述した使用者端末とそれぞれ個別に形成されることができるが、必ずしもこれに限定されない。つまり、自動音声認識装置100のメモリ110に格納されたプログラムが使用者端末のメモリに含まれて、アプリケーションなどの形態で実施されることができることももちろんである。
以下では、図2〜図6を参照して、本発明による自動音声認識装置100のプロセッサー120によって実行される各ステップについてより具体的に説明する。
参考として、本発明の実施例による図1に示された構成要素は、ソフトウェアまたはFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などのようなハードウェア形態で具現されることができ、所定の役割を実行することができる。
しかしながら、『構成要素』は、ソフトウェアまたはハードウェアに限定される意味ではなく、各構成要素はアドレッシングすることができる記憶媒体にあるように構成することもでき、1つまたはそれ以上のプロセッサーを再生させるように構成されることもできる。
従って、一例として、構成要素は、複数のソフトウェア構成要素、複数のオブジェクト指向ソフトウェア構成要素、複数のクラス構成要素及び複数のタスク構成要素のような構成要素と、複数のプロセス、複数の関数、複数の属性、複数のプロシージャ、複数のサブルーチン、複数のプログラムコードのセグメント、複数のドライバ、複数のファームウェア、複数のマイクロコード、回路、データ、データベース、複数のデータ構造、複数のテーブル、複数のアレイ、及び複数の変数を含む。
複数の構成要素とその複数の構成要素の中で提供される機能は、より少ない数の構成要素で結合されたり、追加的な構成要素にさらに分離されることができる。
図2は、本発明による自動音声認識装置100での自動音声認識方法の順序図である。
本発明による自動音声認識方法は、まず、マイク131を通じて音声データを受信すると(S210)、プロセッサー120は、受信した音声データを予め学習された第1モデルに基づいて発音コードデータに変換する(S220)。
次に、プロセッサー120は、変換された発音コードデータを予め学習された第2モデルに基づいて録取録データに変換する(S230)。
このように変換された録取録データは、通信モジュール140を通じて使用者端末に送信されるか、自動音声認識装置100自体のディスプレイ部133を通じて出力されて提供されることができる。
このような自動音声認識方法は、予め用意された事前準備データを利用して、モデルトレーニングステップを通じて第1モデル及び第2モデルをトレーニングし、トレーニングされた第1モデル及び第2モデルを利用して、デコーディングステップを通じて受信した音声データを録取録データに変換する。
以下では、事前準備データと、第1モデル及び第2モデルに対するそれぞれの具体的なケースをベースに、本発明による自動音声認識方法に対する第1実施例〜第4実施例についてより具体的に説明する。
図3は、本発明の第1実施例による自動音声認識方法の順序図である。
本発明の第1実施例による自動音声認識方法は、事前データとして音声データ、発音コードデータ及び録取録データで構成された並列データを利用することができる。
このような並列データの中、音声データと発音コードデータで構成された並列データに基づいて第1モデルである音声−発音コード変換モデルは学習されることができる(S301)。
この時、本発明の第1実施例で、前記第1モデルの学習方法は、通常の音声認識での音声−音素学習部分を利用することができる。
この時、音声データ及び発音コードデータで構成された並列データの発音コードは、表記法などによる音声の異形態表現なしにできるだけ音をそのまま表すことができる値で表現されていなければならない。これは、音声を記号化する際の両義性を減少して学習とデコーディング時の歪みを最小化することができる。また、関連発音変化及び逆変換アルゴリズム(例えば、ウムル アン−>ウムラン、ウムラン−>ウムル アン)が必要でなく、単語の間の連音などによる単語の境界が破壊(例えば、イエプン アンム−>イエプ ナンム、イエプ_ナンム?)されることをどのように処理すべきかについて考慮しなくてもよい。
また、この時に変換される発音コードデータは、単語単位で学習しないで、1次元構造で表現可能な1以上の長さを有する音素または音の特徴値列で構成されることができる。これは、音声−発音コード変換(デコーディング)時点で、単語に変換する時に必要な複雑な資料構造(グラフ)が必要でなく、十分でない文脈(通常の単語内)で単語を推測しながら発生する誤認識(例えば、歪み:ラン−>ラン?ナン?アン?)もないという長所がある。
一方、発音コードデータは、発音の外に声調やイントネーション、休止などを表現する値を含むことができる。
また、発音コードの形態は、文字形態の音声記号であってもよく、一つ以上の数字で構成された値の組み合わせであってもよく、数字と文字が混在された一つ以上の値の組み合わせで構成されてもよい。
本発明の第1実施例で、前記第2モデルである発音コード−録取録変換モデルは、前記並列データの中で、発音コードデータと録取録データで構成された並列データに基づいて学習することができる(S302)。
この時、前記第2モデルを学習する方法としては、シーケンス・トゥ・シーケンス(sequence−to−sequence)形態の学習が可能なCNN、RNNなどのDNNを含めてHMMなど通常の学習方法を適用してトレーニングさせることができる。
このように、第1モデル及び第2モデルである音声−発音コード変換モデルと発音コード−録取録変換モデルが学習されると、本発明の第1実施例による自動音声認識方法は、インターフェースモジュール130のマイク131や使用者端末から音声データを受信し(S310)、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する(S320)。
音声データが発音コードデータに変換されると、次に変換された発音コードデータを発音コード−録取録変換モデルを利用して録取録データに変換し、変換された録取録データは、ディスプレイ部133を通じて出力されたり、使用者端末に提供されることができる(S330)。
このような第1実施例による自動音声認識方法は、音声−発音コード変換モデルを学習する音響モデルトレーニングステップと、発音コード−録取録変換モデルを学習する録取録生成モデルトレーニングステップの二つの学習過程がそれぞれシーケンス・トゥ・シーケンス(sequence−to−sequence)変換が可能な構造であるので、2段階にわたるエンドトゥエンドの(end−to−end)DNN構造で構成可能である。
通常の音声認識システムと、第1実施例の最大の相違点は、音声モデル(つまり、音声−発音コード変換モデル)の結果物が言語独立的な音素であるという点である。
人間が発声可能な音素は限られている。従って、発音コードは、特定の言語に依存しないように汎用的に設計可能である。これは、その言語を知らない人も発音コードに転写することができるという意味である。また、これは、特定の言語のための音声モデルの学習時に、他の言語データを利用することができるという意味である。従って、本発明の第1実施例は、従来技術とは異なり、すでに確保した複数の言語用データを用いて、言語に独立的(汎用)音響モデルを学習することができる。
また、第1実施例の音響モデルの出力は、両義性がなく、正確度の高い(歪みのない)音素情報列であるので、以降の過程であるシーケンス・トゥ・シーケンス(sequence−to−sequence)モデルに汚染されない入力を提供することができる。シーケンス・トゥ・シーケンス(sequence−to−sequence)での問題は、最近DNNベースの高品質の技法の開発により解消可能であり、特に発音コード−録取録の変換での問題は、自動翻訳のように文脈情報を文章全体ではなく、いくつかの単語内でインポートすればいいので、正確度や速度も問題ない。
また、第1実施例の録取録の変換過程で、シーケンス・トゥ・シーケンス(sequence−to−sequence)形態のディープラーニングを適用することにより、文脈情報の使用範囲を学習過程で容易に調節することができる。また、モデルのサイズが従来の言語モデルに比べてネズミ算式に増加しないという長所がある。従って、文脈情報の使用範囲を適切に適用して、音声認識の過程で文脈と脈絡に全く合わない単語が現れることを最小化して、自然な文章を生成することができる。
図4は、本発明の第2実施例による自動音声認識方法の順序図である。
本発明の第2実施例による自動音声認識方法は、事前データとして音声データと録取録データのみで構成された並列データを利用するという点で、第1実施例と差がある。
具体的には、第2実施例は、前記並列データの中で、音声データのみを利用して、第1モデルである音声−発音コード変換モデルを非監督学習することができる(S401)。
この時、音声データのみを利用して、非監督学習を利用することが効果的である理由は、学習目標が少ない数の限られた発音コードであり(人間の発声可能な発音は限定的ある)、同一発音−同一コード形態で学習するからである。
このような非監督学習方法としては、群集化技法、強化学習など通常の方法を適用することができる。例えば、群集化技法は、特定の音声区間で抽出した特徴値を、他の区間で抽出した特徴値や他の群集の中間値と一々対照して、数学的に最も近いもの同士を同じ群集に定める過程を繰り返して、群集の数が一定の数以内になるまで繰り返す。そして、強化学習は、出力(分類コード)を任意の数に決めた後、特定の音声区間で抽出した特徴値の分類結果が両義性が少ない(明確性が大きい)方向に指導して学習することができる。
一方、本発明の第2実施例における第2モデルである発音コード−録取録変換モデルは、発音コードデータと録取録データで構成された並列データを利用して第1実施例と同じ方法で学習することができる(S402)。
この時、発音コードデータと録取録データで構成された並列データは、音声−録取録並列データを音声−発音コード−録取録並列データに自動に変換して取得する。この時の自動変換は、音声−発音コード変換モデルを用いて音声で発音コードを自動的に生成することにより可能である。
このように、第1モデル及び第2モデルである音声−発音コード変換モデルと発音コード−録取録変換モデルが学習されると、本発明の第2実施例による自動音声認識方法は、音声データを受信し(S410)、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する(S420)。
次に、変換された発音コードデータを発音コード−録取録変換モデルを利用して録取録データに変換する(S430)。
このような第2実施例による自動音声認識方法は、非監督音響モデルトレーニングステップと、録取録の生成モデルトレーニングステップの二つの学習過程がそれぞれシーケンス・トゥ・シーケンス(sequence−to−sequence)変換が可能な構造であるので、2段階にわたるエンドツーエンド(end−to−end)DNN構造で構成が可能である。
このように、本発明の第2実施例は、音声−発音コード並列データを予め用意しなくて済むよう非監督音響モデルトレーニングが導入されたことを特徴とする。
図5は、本発明の第3実施例による自動音声認識方法の順序図である。
本発明の第3実施例による自動音声認識方法は、事前データとして音声データ、音節−発音辞典データ及びコーパスデータが必要であり、それぞれは並列データで構成される必要がなく、独立的に構成されることができる。
第3実施例は、第2実施例のように、音声データのみを利用して、第1モデルである音声−発音コード変換モデルを非監督学習することができる(S501)。
次に、予め用意されたコーパスデータに基づいて、第2モデルである言語モデルを学習して生成する(S502)。この時、コーパスデータは、並列コーパスである必要はなく、言語モデルは、文字単位で追跡して文章を生成することができるモデルを意味する。
このように、第1モデル及び第2モデルである音声−発音コード変換モデルと言語モデルが学習されると、本発明の第3実施例による自動音声認識方法は、音声データを受信し(S510)、受信した音声データを音声−発音コード変換モデルを利用して発音コードデータに変換する(S520)。
次に、変換された発音コードデータを予め用意された音節−発音辞典データを利用して、表記可能な文字(音節)候補列を生成する(S530)。
次に、コーパスデータに基づいて学習された言語モデルを通じて、前記生成された文字候補列を録取録データに変換する(S540)。
この時、本発明の第3実施例による自動音声認識方法は、発音コード−文字生成ステップ(S530)と、文字候補−録取録生成ステップ(S540)との間に単語の生成ステップが追加されることができ、この場合、単語辞典をさらに利用することができる。
一方、本発明の第3実施例による自動音声認識方法で発音コードデータを発音に変換する知識は、手動、半自動または自動に構築されることができる。
例えば、発音コードを発音に変換する知識を自動的に構築する場合には、大容量の音声−録取録並列データを既に構築された音声−発音コード変換モデルを通じて発音コードを生成し、生成された発音コード列の何れのピースと並列コーパスに対応する録取録の特定の音節を比較して分布統計などが数学的に類似したものを探す過程を繰り返すことにより、音節−発音対を見つけることが可能である。
他の方法としては、バイト対符号化(byte pair encoding)を発音コード列とコーパスに同様に適用することでも音節−発音対を見つけることができる。
何れの方法でもエラーが発生する虞があるが、対象コーパスを増加すれば、エラーは減り、エラーが内包されたとしても、低い確率を有するので、結果に及ぼす影響は低くなる。
このような本発明の第3実施例による自動音声認識方法の場合、非監督音響モデルトレーニングステップ、音声−発音コード変換ステップ、言語モデルトレーニングステップ、発音コード−文字生成ステップ及び文字候補−録取録生成ステップの5つのステップを通じて完全に非監督学習が可能であることが特徴である。
ただし、この場合、音節−発音辞典は別途に構成する必要がある。音節−発音辞典を自動的に構築するには、並列コーパスが必要であるか、並列コーパスなしに手作業で構築することもできる。また、音節辞典であるので、その大きさが単語辞典ほど膨大でなく限定的である。
図6は、本発明の第4実施例による自動音声認識方法の順序図である。
本発明の第4実施例による自動音声認識方法は、事前データとして音節−発音辞典データとコーパスデータとともに、音声データ及び発音コードデータで構成された並列データが必要である点で第3実施例と差がある。
具体的には、第4実施例は、音声データと発音コードデータで構成された並列データに基づいて、第1モデルである音声−発音コード変換モデルが学習されることができる(S601)。
次に、第3実施例のように、予め用意されたコーパスデータに基づいて、第2モデルである言語モデルを学習して生成する(S602)。
このように、第1モデル及び第2モデルである音声−発音コード変換モデルと言語モデルが学習されると、本発明の第4実施例による自動音声認識方法は、音声データを受信し(S610)、受信した音声データを音声−発音コード変換モデルを用いて発音コードデータに変換する(S620)。
次に、変換された発音コードデータを予め用意された音節−発音辞典データを利用して、表記可能な文字候補列を生成する(S630)。
次に、コーパスデータに基づいて学習された言語モデルを通じて、前記生成された文字候補列を録取録データに変換する(S640)。
上述した説明では、ステップS210〜S640は、本発明の具現例によって、追加的なステップにさらに分割されたり、より少ないステップで組み合わせることができる。また、一部のステップは、必要によって省略されることもでき、ステップの間の順序が変更されることもできる。また、その他の省略された内容であっても、図1における自動音声認識装置100について既に記載された内容は、図2〜図6の自動音声認識方法にも適用される。
一方、第1実施例〜第4実施例による自動音声認識方法は、発音と発音コードとの間の両義性のない一対一の関係を有する。従って、必ずしも特定の言語のみに限定されるのではなく、言語が変わることによって発音法則が変わり、発音−記号の間の代入関係が変わるようになる現象がないという長所がある。
それにより、本発明の音声−発音コード変換モデルは、全ての言語圏で再学習することなく同一に使用することができる。
また、前記の特性により、本発明による自動音声認識方法は、音声−発音コード変換学習過程で必要な音声データを特定の言語に限定しなくてもいいという長所がある。
また、本発明は、第2実施例及び第3実施例のように、音響モデルを非監督学習したり、第1実施例及び第4実施例のように、半自動低費用で構築することによって、低費用及び大容量の学習を通じた音響モデル認識性能を向上させることができるという長所がある。
本発明の一実施例による自動音声認識装置100における自動音声認識方法は、コンピュータによって実行される媒体に格納されたコンピュータプログラムまたはコンピュータによって実行可能な命令を含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる何れの利用可能な媒体であってもよく、揮発性及び不揮発性媒体、分離型及び非分離型媒体を全部含む。また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体及び通信媒体を全部含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令語、データ構造、プログラムモジュール、またはその他のデータのような情報の格納のための何れの方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体を全部含む。通信媒体は、典型的にコンピュータ読み取り可能な命令語、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他のトランスポートメカニズムを含み、何れの情報伝達媒体を含む。
本発明の方法及びシステムは特定の実施例と関連して説明されたが、それらの構成要素または動作の一部または全部は、汎用ハードウェアアーキテクチャを有するコンピュータシステムを使用して具現されることができる。
前述した本発明の説明は例示のためのものであり、本発明が属する技術分野において通常の知識を有する者は、本発明の技術的思想や必須的特徴を変更せずに、他の具体的な形態に容易に変形が可能であることを理解すべきである。従って、以上で記述した実施例は、全ての面で例示的なものであり、限定的ではないことを理解すべきである。例えば、単一型に説明されている各構成要素は分散されて実施されることもでき、同様に分散されて説明されている構成要素も結合された形態で実施されることができる。
本発明の範囲は、前述の詳細な説明ではなく特許請求範囲によって定められ、特許請求範囲の意味及び範囲、そしてその均等な概念から導出される全ての変更または変形された形態が本発明の範囲に含まれるものと解釈されるべきである。
本発明は多様な音声認識技術分野に適用されることができ、自動音声認識装置及び方法を提供することができる。このような特徴により、音声認識のための学習データによる情報の歪みを防止することができる。
100:自動音声認識装置
110:メモリ
120:プロセッサー
130:インターフェースモジュール
131:マイク
133:ディスプレイ部
140:通信モジュール


Claims (11)

  1. 自動音声認識装置において、
    インターフェースモジュールを通じて受信した音声データを録取録データに変換して出力するためのプログラムが格納されたメモリと、
    前記メモリに格納されたプログラムを実行させるプロセッサーとを含み、
    前記プロセッサーは前記プログラムを実行させることによって、前記受信した音声データを予め学習された第1モデルに基づいて発音コードデータに変換し、前記変換された発音コードデータを予め学習された第2モデルに基づいて録取録データに変換するものである自動音声認識装置。
  2. 前記予め学習された第1モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、音声データ及び発音コードデータで構成された並列データに基づいて学習されたものである請求項1に記載の自動音声認識装置。
  3. 前記変換された発音コードデータは、1次元構造で表現可能な1以上の長さを有する音素や音の特徴値列で構成されるものである請求項2に記載の自動音声認識装置。
  4. 前記変換された発音コードデータは言語独立的な値で構成されるものである請求項2に記載の自動音声認識装置。
  5. 前記予め学習された第2モデルは、発音コード−録取録変換モデルであり、前記発音コード−録取録変換モデルは発音コードデータ及び録取録データで構成された並列データに基づいて学習されるものである請求項1に記載の自動音声認識装置。
  6. 前記予め学習された第2モデルは、発音コード−録取録変換モデルであり、前記第2モデルは、シーケンス形態の発音コードをシーケンス形態の録取録に一度に変換する請求項1に記載の自動音声認識装置。
  7. 前記予め学習された第1モデルは、音声−発音コード変換モデルであり、前記音声−発音コード変換モデルは、予め用意された音声データに基づいて非監督学習されて生成されるものである請求項1に記載の自動音声認識装置。
  8. 前記予め用意された音声データは録取録データとともに並列データで構成されるものである請求項7に記載の自動音声認識装置。
  9. 前記予め学習された第2モデルは発音コード−録取録変換モデルであり、
    前記プロセッサーは、前記予め学習された音声−発音コード変換モデルに基づいて前記並列データに含まれた音声データに対応するように発音コードデータに変換し、
    前記予め学習された発音コード−録取録変換モデルは、前記プロセッサーにより前記音声データに対応するように変換された発音コードデータ及び前記録取録データで構成された並列データに基づいて学習されたものである請求項8に記載の自動音声認識装置。
  10. 前記プロセッサーは、予め用意された音節−発音辞典データを用いて前記変換された発音コードデータから文字候補列を生成し、コーパスデータに基づいて学習された言語モデルである前記第2モデルを通じて前記生成された文字候補列から前記録取録データに変換するものである請求項2または7に記載の自動音声認識装置。
  11. 自動音声認識方法において、
    音声データを受信するステップと、
    前記受信した音声データを予め学習された第1モデルに基づいて発音コード列に変換するステップと、
    前記変換された発音コード列を予め学習された第2モデルに基づいて録取録データに変換するステップと、を含む、自動音声認識方法。

JP2020545027A 2017-11-14 2018-11-06 自動音声認識装置及び方法 Pending JP2021503104A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2017-0151871 2017-11-14
KR1020170151871A KR102075796B1 (ko) 2017-11-14 2017-11-14 자동 음성인식 장치 및 방법
PCT/KR2018/013412 WO2019098589A1 (ko) 2017-11-14 2018-11-06 자동 음성인식 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2021503104A true JP2021503104A (ja) 2021-02-04
JPWO2019098589A5 JPWO2019098589A5 (ja) 2022-01-19

Family

ID=66539179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545027A Pending JP2021503104A (ja) 2017-11-14 2018-11-06 自動音声認識装置及び方法

Country Status (6)

Country Link
US (1) US20210174789A1 (ja)
EP (1) EP3712886A4 (ja)
JP (1) JP2021503104A (ja)
KR (1) KR102075796B1 (ja)
CN (1) CN111357049A (ja)
WO (1) WO2019098589A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11637923B1 (en) 2020-09-17 2023-04-25 Intrado Corporation Insight determination from aggregated call content
US11805189B1 (en) * 2020-09-17 2023-10-31 Intrado Life & Safety, Inc. Publish and subscribe call center architecture

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2010009446A (ja) * 2008-06-30 2010-01-14 Internatl Business Mach Corp <Ibm> 音声ファイルの検索システム、方法及びプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
KR20060067107A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 조음모델을 이용한 연속음성인식 장치 및 그 방법
KR101424193B1 (ko) * 2007-12-10 2014-07-28 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
KR20170086233A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2010009446A (ja) * 2008-06-30 2010-01-14 Internatl Business Mach Corp <Ibm> 音声ファイルの検索システム、方法及びプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Also Published As

Publication number Publication date
KR20190054850A (ko) 2019-05-22
EP3712886A1 (en) 2020-09-23
WO2019098589A1 (ko) 2019-05-23
EP3712886A4 (en) 2021-08-18
CN111357049A (zh) 2020-06-30
US20210174789A1 (en) 2021-06-10
KR102075796B1 (ko) 2020-03-02

Similar Documents

Publication Publication Date Title
US10388284B2 (en) Speech recognition apparatus and method
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
Le et al. Deep shallow fusion for RNN-T personalization
JP7490804B2 (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
JP7170920B2 (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
US9697201B2 (en) Adapting machine translation data using damaging channel model
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
CN110556100A (zh) 端到端语音识别模型的训练方法及系统
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
JP7418991B2 (ja) 音声認識方法及び装置
Khare et al. Low Resource ASR: The Surprising Effectiveness of High Resource Transliteration.
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP2021503104A (ja) 自動音声認識装置及び方法
WO2022105472A1 (zh) 一种语音识别方法、装置和电子设备
JP2024511176A (ja) エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習
CN112133285B (zh) 语音识别方法、装置、存储介质和电子设备
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN111489742A (zh) 声学模型训练方法、语音识别方法、装置及电子设备
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统
Teja et al. Speech recognition for Indian-accent English using a transformer model
KR20200121260A (ko) 발음 변이를 적용시킨 음성 인식 방법
Datta et al. LSTM Acoustic Models Learn to Align and Pronounce with Graphemes
JP2021111051A (ja) 記号列変換装置および記号列変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220906