JPH06102895A - 音声認識モデル学習装置 - Google Patents

音声認識モデル学習装置

Info

Publication number
JPH06102895A
JPH06102895A JP4249297A JP24929792A JPH06102895A JP H06102895 A JPH06102895 A JP H06102895A JP 4249297 A JP4249297 A JP 4249297A JP 24929792 A JP24929792 A JP 24929792A JP H06102895 A JPH06102895 A JP H06102895A
Authority
JP
Japan
Prior art keywords
data
learning
recognition model
input
minimum unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4249297A
Other languages
English (en)
Inventor
Otoya Shirotsuka
音也 城塚
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4249297A priority Critical patent/JPH06102895A/ja
Publication of JPH06102895A publication Critical patent/JPH06102895A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 少ない学習データで高認識性能の認識モデル
の学習を可能とし、連結学習により認識モデルの学習を
行なう音声認識システムの性能を向上させる。 【構成】 連結学習により認識モデルの学習を行なう音
声認識システムの音声認識モデル学習装置において、入
力された学習データに対応する文字列を解析し、認識モ
デルを構成するトライフォン等の最小単位の種類と出現
数を抽出する入力データ解析部と、抽出したトライフォ
ン等の種類と出現個数とを、入力された全学習データに
対応付けて登録する入力データ最小単位分布保存部と、
登録したトライフォン等の種類と出現個数に基づき、入
力された全学習データから、学習に最適なデータを選び
だす入力データ評価部とを設ける。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識システムにお
ける認識モデルの学習技術に係わり、特に、認識モデル
の学習を効率良く行ない、学習に要するデータ量を削減
するのに好適な音声認識モデル学習装置に関するもので
ある。
【0002】
【従来の技術】現在、コンピュータのより自然な入出力
技術として、例えば、電子情報通信学会編「電子情報通
信ハンドブック」(1988年、オーム社発行)の第1
191頁から第1206頁に記載のように、音声の合成
や認識に係わる技術が研究されている。
【0003】従来、音声認識システムでの認識モデルの
学習において、高い認識性能を得るためには、連結学習
(以下、単に学習と記載)用データとして、認識対象と
同じタスクの音声データを用意する必要がある。そのた
め、認識対象タスクを変更するたびに、新しいタスクの
学習用データを、新たに収録する必要がある。この学習
用データの作成技術として、認識対象タスクに含まれる
単語や音韻、音素、トライフォンといった認識単位に着
目し、それらを、できるだけ使用し、文法的に可能なそ
れらの組み合わせにより作られた文を、人間が発声する
のが代表的である。
【0004】尚、トライフォンとは、音素を、その先行
および後続音素によって場合分けした音素単位であり、
例えば、「朝日」という単語は、「a」、「s」、
「a」、「h」、「i」という5つの音素表記で表され
るが、トライフォンで表記する場合は、「#as」、
「asa」、「sah」、「ahi」、「hi#」とい
う5つの音素表記で表される。このトライフォンの音素
表記の「#」は、単語頭、単語末の無音(ポーズ)を表
し、従って、「朝日」の「a」は、語頭の無音「#」
と、後続の音素「s」に挾まれ、「#as」と表され
る。同様に、「朝日」の「s」は、先行の音素「a」
と、後続の音素「a」に挾まれており、「asa」と表
される。N種類の音素があれば、Nの3乗の種類のトラ
イフォンが存在することになる。
【0005】しかし、このような認識モデルの学習にお
いては、学習用データの設計、および、収録には、時間
と労力がかかる。このような学習時間を削減するため
に、作成された学習データから任意の量の学習データ
を、無作為に選択して、認識モデルの学習に使用するこ
とが考えられる。しかし、この場合、学習後の認識モデ
ルの性能にバラツキが生じ、得られた認識性能が、任意
の学習量における最も高い認識性能である保証がない。
【0006】
【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、音声認識システムでの認識モデ
ルの学習において、この学習時間を削減する場合、作成
された学習データから任意の量の学習データを無作為に
選択して、認識モデルの学習に使用するが、学習後の認
識モデルの性能にバラツキが生じ、得られた認識性能
が、任意の学習量における最も高い認識性能である保証
がなく、少ない学習データ量では、高い認識性能を得る
ことができない点である。本発明の目的は、これら従来
技術の課題を解決し、少ない学習データ量で、認識性能
の高い認識モデルの学習ができ、音声認識システムの性
能の向上を可能とする音声認識モデル学習装置を提供す
ることである。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識モデル学習装置は、(1)入力さ
れた複数の音声データとこの音声データに対応する文字
列とを用いて、音声認識システムの認識モデルの学習
(連結学習)を行なう音声認識モデル学習装置であり、
学習用に入力された音声データに対応する文字列を解析
し、文字列毎に含まれる単語、音素、音素環境を考慮し
た音素単位であるトライフォン等、認識モデルを構成す
る最小単位の種類と出現数を抽出する入力データ解析部
と、この入力データ解析部で抽出した認識モデルを構成
する最小単位の種類と出現個数とを、入力された全ての
音声データに対応付けて登録する入力データ最小単位分
布保存部と、この入力データ最小単位分布保存部で登録
した認識モデルを構成する最小単位の種類と出現個数に
基づき、認識モデルの学習用に入力された全ての音声デ
ータから、この認識モデルの学習に適したデータを選び
だす入力データ評価部とを設け、この入力データ評価部
で選びだした最適学習データを用いて認識モデルの学習
処理を行なうことを特徴とする。また、(2)上記
(1)に記載の音声認識モデル学習装置において、予め
求められた認識対象データ全体に含まれる認識モデルを
構成する最小単位の種類と出現数を登録する認識対象デ
ータ最小単位分布保存部を設け、入力データ評価部は、
この認識対象データ最小単位分布保存部、および、入力
データ最小単位分布保存部で登録した認識モデルを構成
する最小単位の種類と出現個数に基づき、認識モデルの
学習に適したデータを選びだすことを特徴とする。ま
た、(3)上記(1)、もしくは、(2)のいずれかに
記載の音声認識モデル学習装置において、入力データ評
価部が選んだ学習に最適な音声データの認識モデルを構
成する最小単位の種類と出現個数を登録する最適データ
最小単位分布保存部を設け、入力データ評価部は、この
最適データ最小単位分布保存部に未だ最適学習データと
して登録していない入力データに対して、入力データ最
小単位分布保存部で登録した認識モデルを構成する最小
単位の種類と出現個数に基づく認識モデルの学習に適し
たデータの選択を行なうことを特徴とする。
【0008】
【作用】本発明においては、予め、学習に使用可能な各
学習データを分析し、含まれる単語、音素、音素環境を
考慮した音素単位であるトライフォンなど、認識モデル
を構成する最小単位の種類と、その出現数を記録する。
そして、記録した認識モデルを構成する最小単位の種類
と、その出現数とに基づき、学習に使用可能な各データ
の評価を行ない、一番評価値の高いものを、最適学習デ
ータとして選択し、その選択したデータ、および、選択
したデータに含まれる最小単位の種類とその出現数を記
録する。尚、この評価において、今回の評価の対象とな
るデータが、前回までの評価で、既に、最適学習データ
として選択されたデータであれば、このデータに対する
評価は行なわず、処理を高速化する。さらに、選択され
たデータの数が、必要とするデータ数に達するまで、全
学習可能データの評価と、最適学習データの選択を繰返
し、任意の数の最適学習データを選択する。このように
して、認識モデルの学習に用いるデータを、最適学習デ
ータに絞り込むことにより、認識モデルの学習を効率良
く行なうことが可能となる。
【0009】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明に係わるモデル学習部の構成
の一実施例を示すブロック図であり、図2は、そのモデ
ル学習部を用いた音声認識システムの構成の一実施例を
示すブロック図である。図2において、1は、入力され
た音声の認識を行なうと共に、認識に用いる認識モデル
の学習を行なう音声認識システム、2は、学習用および
認識用の音声を入力する入力端子、3は、学習用の音声
入力に対応する文字列を入力する入力端子、4は、入力
端子2より入力された音声を処理して、その特徴パラメ
ータを抽出する前処理部、5は、抽出された音声の特徴
パラメータと、入力端子3より入力された入力音声に対
応する文字列を使用して、認識モデルの学習を行なう本
発明の音声認識モデル学習装置としてのモデル学習部、
6は、モデル学習部5の学習で作成される認識モデル、
7は、認識モデル6を参照して、入力端子2より入力さ
れた音声の認識を、抽出された音声の特徴パラメータを
使用して行なう音声認識部、8は、音声認識部7の認識
結果を出力する出力端子である。
【0010】このような構成により、本実施例の音声認
識システム1は、入力された既知の音声を使用した認識
モデルの学習、および、入力された未知音声の認識を行
なう。すなわち、認識時には、音声認識部7により、認
識モデル6を使用して、入力端子2から入力された音声
の認識を行ない、出力端子8に出力する。また、学習時
には、入力端子2、3のそれぞれから入力された音声
と、それに対応する文字列に基づき、モデル学習部5に
より、学習を行ない、認識モデル6を作成する。以下、
図1を用いて、モデル学習部5の本発明に係わる説明を
行なう。
【0011】図1において、モデル学習部5は、入力さ
れた学習データに対応する記号列をトライフォン表現に
変換して、トライフォン分布を解析する本発明の入力デ
ータ解析部としての入力データトライフォン分布解析部
9と、この入力データトライフォン分布解析部9が求め
たトライフォン分布を記録保存する本発明の入力データ
最小単位分布保存部としての入力データトライフォン分
布保存部11と、予め求めてあった認識対象データ全体
のトライフォン分布を保存する本発明の認識対象データ
最小単位分布保存部としての認識対象データトライフォ
ン分布保存部12と、既に、学習に最適なデータとして
選ばれた学習データのトライフォン分布を保存する最適
データ最小単位分布保存部としての最適データトライフ
ォン分布保存部13と、入力データトライフォン分布保
存部11、認識対象データトライフォン分布保存部1
2、最適データトライフォン分布保存部13のそれぞれ
に保存されたトライフォン分布に基づき、最適な学習デ
ータを選び出す入力データ評価部10と、この入力デー
タ評価部10により選択された最適データ自体を保存す
る最適データ保存部14と、最適データ保存部14に保
存されている入力データ評価部10により選択された最
適学習データを使用して、認識モデルの学習処理を行な
う認識モデル学習処理部15とにより構成されている。
【0012】入力データトライフォン分布解析部9は、
入力されたひらがなやローマ字、発音記号などで表記さ
れた学習データと対応する記号列を、トライフォン表現
に変換すると共に、変換した記号列を解析して、記号列
毎に含まれるトライフォンの分布、すなわち、種類と出
現個数を調べる。そして、入力データトライフォン分布
保存部11は、この入力データトライフォン分布解析部
9が求めたトライフォンの種類と、出現個数を記録保存
する。また、最適データトライフォン分布保存部13
は、既に、学習に最適なデータとして選ばれた学習デー
タのトライフォンの種類と出現個数を保存する。
【0013】一方、認識対象データトライフォン分布保
存部12は、予め求めてあった認識対象データ全体のト
ライフォンの種類と出現個数を保存している。ここで、
認識対象データとは、図2の音声認識システム1に入力
され、認識される音声データである。例えば、図2の音
声認識システム1が、ホテルの予約業務に使用され、ホ
テルの予約を希望する人達が、このシステムに音声を入
力する場合、認識対象データは、ホテルの予約に関する
音声データ、具体的には、「新宿の何々ホテルに16日
の予約をお願いします。」や、「来週の金曜日に仙台の
ホテルに泊まりたいのですが」などといったものとな
る。音声認識システムが、どのような用途に使用される
かにより、認識対象データは変わる。
【0014】また、認識データのトライフォンなどの最
小単位の分布を求めるには、以下の2種類の方法があ
る。 (a)認識システムのタスク(使用目的)を踏まえて、
そこで使用されると考えられる単語や構文から、入力さ
れる音声の内容予測(文の集合)を予測し、その文を解
析することにより、最小単位の分布を求める。 (b)認識システムの実際の使用目的に関する音声デー
タを、人々に発声してもらって収集し、その内容を文字
列データに変換して、解析することにより、最小単位の
分布を求める。
【0015】このようにして認識対象データトライフォ
ン分布保存部12に保存された認識対象データ全体のト
ライフォン分布情報(トライフォンの種類と出現個数)
と入力データトライフォン分布保存部11に保存された
各データのトライフォン分布情報とを使用して、もしく
は、入力データトライフォン分布保存部11に保存され
た各データのトライフォン分布情報のみを使用して、入
力データ評価部10は、入力データを評価し、評価値の
最も高いものを、学習に最適なデータとして選び出す。
【0016】この時、入力データ評価部10は、最適デ
ータトライフォン分布保存部13に保存された、既に、
学習に最適なデータとして選ばれたデータのトライフォ
ン分布情報に基づき、最適学習データとして未だ選ばれ
ていない入力データに対してのみ評価を行なう。そし
て、入力データ評価部10により選択された最適データ
自体は、最適データ保存部14に保存され、認識モデル
学習処理部15は、この最適データ保存部14に保存さ
れている最適学習データを使用して、認識モデルの学習
処理を行なう。
【0017】このようにして、本実施例のモデル学習部
5は、認識モデルの学習において、使用可能な全学習デ
ータから、各学習データのトライフォンの分布に基づい
て、認識モデルの学習に適した学習データを評価して選
択し、認識モデルの学習に使用する。また、認識対象デ
ータ全体のトライフォンの分布が分かる場合には、認識
対象データのトライフォンの分布に基づいて、認識モデ
ルの学習に適した学習データを評価して選択し、認識モ
デルの学習に使用する。
【0018】次に、モデル学習部5の本発明に係わる最
適学習データの選択処理動作を、次の図3を用いて説明
する。図3は、図1におけるモデル学習部の本発明に係
わる処理動作の一実施例を示すフローチャートである。
本実施例は、主に図1における入力データ評価部10の
処理動作を示すものであり、まず、入力データセットか
ら、入力データを1つ取り出す(ステップ301)。図
1の最適データトライフォン分布保存部13を参照し
て、このデータが、既に最適学習データとして選択済み
でないかチェックする(ステップ302)。このように
して、既に最適学習データとして選択済みのデータに対
する重複した処理を回避する。
【0019】取りだした入力データが、未だ最適学習デ
ータとして選択済みでなければ、予め用意した評価関数
に基づき、そのデータの評価を行なう(ステップ30
3)。ここで使用する評価関数としては、以下の数1〜
数3に掲げる3種類の関数を用意する。
【数1】
【数2】
【数3】
【0020】数1に示す関数は、選択した入力データの
トライフォンの種類数が最大になるように、入力データ
を選択するための評価関数であり、Ktは、選択したト
ライフォンの種類数である。数2に示す関数は、既に選
択した入力データのトライフォン分布を調べて、出現数
の少ないトライフォンを含むデータを優先的に選択する
ための評価関数であり、nは、トライフォンの総種類
数、Wa(i)は、トライフォン「i」の選択された入
力データにおける希少性を考慮した重み、Δt(i)
は、既に選択された入力データに新たな入力データを追
加した場合のトライフォン「i」の個数の増加分であ
る。数3に示す関数は、認識対象データのトライフォン
分布を予め調べておき、その分布上で出現しにくいトラ
イフォンを含む入力データを優先的に選択する手法であ
り、Wb(i)は、認識対象のトライフォン分布から見
たトライフォン「i」の希少性を考慮した重みである。
【0021】数1の評価関数と数2の評価関数は、認識
対象データのトライフォン分布情報を、その評価に使用
しないので、認識対象データのトライフォン分布が不明
であるときにも使用可能である。また、数3の評価関数
は、認識対象データのトライフォン分布情報を使用する
ので、認識対象データのトライフォンの分布が分かって
いるときのみに使用できる。それぞれの評価関数は、各
入力データのトライフォン分布情報と、既に最適データ
として選択された入力データのトライフォン分布情報
を、その評価に使用する。
【0022】このような評価関数を用いた評価により
(ステップ304)、最も高く評価されたデータと、そ
の評価値を記録する(ステップ306)。全ての入力デ
ータを評価したことを検出すると(ステップ305)、
記録している最も高く評価した入力データを、最適学習
データとして決定して記録する(ステップ307)。ま
た、新しいデータの選択に伴い、選択した入力データ
(最適学習データ)全体のトライフォン分布を更新す
る。
【0023】このようにして選択した最適学習データの
数が、目的とするデータ数に達するまで、ステップ15
からステップ21までの処理を繰返し、入力データか
ら、1データずつ、最適学習データを選択する(ステッ
プ22)。また、このステップ22において、目的の数
の最適学習データを選択したことを確認すると、入力デ
ータの評価、選択処理を終了する。そして、図1の認識
モデル学習処理部15により、選択した最適学習データ
を使用した認識モデルの学習処理を開始する。
【0024】以上、図1〜図3を用いて説明したよう
に、本実施例の音声認識システムにおけるモデル学習部
では、認識モデルの学習において、予め、学習に使用可
能な全学習データから、各学習データのトライフォンの
分布(種類と出現個数)に基づいて、認識モデルの学習
に適した学習データを評価して選択し、認識モデルの学
習に使用する。また、認識対象データ全体のトライフォ
ンの分布が分かる場合には、認識モデルを構成する認識
対象データのトライフォンの分布を調べ、その分布に基
づいて、認識モデルの学習に適した学習データを評価し
て選択し、認識モデルの学習に使用する。
【0025】このように、既存データから、学習に適し
たデータを、データのトライフォン分布に基づいて評価
して選択することにより、従来は学習に適していなかっ
たデータセットの学習データへの使用が可能となる。ま
た、既存データから、学習に適した少量のデータを選択
してくることにより、学習データ量の削減が可能とな
り、従来より小規模の学習データで、かつ、従来よりも
短時間の学習で、従来と同程度の認識性能を持つ認識モ
デルの学習が可能となる。
【0026】尚、本発明は、図1〜図3を用いて説明し
た実施例に限定されるものではなく、その要旨を逸脱し
ない範囲において種々変更可能である。例えば、本実施
例では、最小単位として、トライフォンを使用している
が、他の単位を使用する場合も、その実施は同様に可能
である。
【0027】
【発明の効果】本発明によれば、少ない学習データ量
で、認識性能の高い認識モデルの学習ができ、音声認識
システムにおける学習データ作成の労力の削減と、学習
時間の短縮が可能となり、音声認識システムの性能を向
上させることができる。
【0028】
【図面の簡単な説明】
【図1】本発明に係わるモデル学習部の構成の一実施例
を示すブロック図である。
【図2】図1におけるモデル学習部を用いた音声認識シ
ステムの構成の一実施例を示すブロック図である。
【図3】図1におけるモデル学習部の本発明に係わる処
理動作の一実施例を示すフローチャートである。
【符号の説明】
1 音声認識システム 2、3 入力端子 4 前処理部 5 モデル学習部 6 認識モデル 7 音声認識部 8 出力端子 9 入力データトライフォン分布解析部 10 入力データ評価部 11 入力データトライフォン分布保存部 12 認識対象データトライフォン分布保存部 13 最適データトライフォン分布保存部 14 最適データ保存部 15 認識モデル学習処理部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された複数の音声データと該音声デ
    ータに対応する文字列とを用いて、音声認識システムの
    認識モデルの連結学習を行なう音声認識モデル学習装置
    であり、上記連結学習用に入力された音声データに対応
    する文字列を解析し、上記文字列毎に含まれる単語、音
    素、音素環境を考慮した音素単位であるトライフォン
    等、上記認識モデルを構成する最小単位の種類と出現数
    を抽出する入力データ解析手段と、該入力データ解析手
    段で抽出した上記認識モデルを構成する最小単位の種類
    と出現個数とを、上記入力された全ての音声データに対
    応付けて登録する入力データ最小単位分布保存手段と、
    該入力データ最小単位分布保存手段で登録した上記認識
    モデルを構成する最小単位の種類と出現個数に基づき、
    上記認識モデルの連結学習用に入力された全ての音声デ
    ータから、該認識モデルの連結学習に適したデータを最
    適学習データとして選びだす入力データ評価手段とを設
    け、該入力データ評価手段で選びだした最適学習データ
    を用いて上記認識モデルの連結学習処理を行なうことを
    特徴とする音声認識モデル学習装置。
  2. 【請求項2】 請求項1に記載の音声認識モデル学習装
    置において、予め求められた認識対象データ全体に含ま
    れる上記認識モデルを構成する最小単位の種類と出現数
    を登録する認識対象データ最小単位分布保存手段を設
    け、上記入力データ評価手段は、該認識対象データ最小
    単位分布保存手段、および、上記入力データ最小単位分
    布保存手段で登録した上記認識モデルを構成する最小単
    位の種類と出現個数に基づき、上記認識モデルの連結学
    習に適したデータを選びだすことを特徴とする音声認識
    モデル学習装置。
  3. 【請求項3】 請求項1、もしくは、請求項2のいずれ
    かに記載の音声認識モデル学習装置において、上記入力
    データ評価手段が選んだ最適学習データの上記認識モデ
    ルを構成する最小単位の種類と出現個数を登録する最適
    データ最小単位分布保存手段を設け、上記入力データ評
    価手段は、該最適データ最小単位分布保存手段に未だ最
    適学習データとして登録していない上記入力データに対
    して、上記入力データ最小単位分布保存手段で登録した
    上記認識モデルを構成する最小単位の種類と出現個数に
    基づく、上記認識モデルの連結学習に適したデータの選
    択を行なうことを特徴とする音声認識モデル学習装置。
JP4249297A 1992-09-18 1992-09-18 音声認識モデル学習装置 Pending JPH06102895A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4249297A JPH06102895A (ja) 1992-09-18 1992-09-18 音声認識モデル学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4249297A JPH06102895A (ja) 1992-09-18 1992-09-18 音声認識モデル学習装置

Publications (1)

Publication Number Publication Date
JPH06102895A true JPH06102895A (ja) 1994-04-15

Family

ID=17190885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4249297A Pending JPH06102895A (ja) 1992-09-18 1992-09-18 音声認識モデル学習装置

Country Status (1)

Country Link
JP (1) JPH06102895A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045559A (ja) * 2016-09-16 2018-03-22 富士通株式会社 情報処理装置、情報処理方法およびプログラム
WO2019039873A1 (ko) * 2017-08-22 2019-02-28 삼성전자 주식회사 Tts 모델을 생성하는 시스템 및 전자 장치
JP2021012592A (ja) * 2019-07-08 2021-02-04 株式会社野村総合研究所 データ処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045559A (ja) * 2016-09-16 2018-03-22 富士通株式会社 情報処理装置、情報処理方法およびプログラム
WO2019039873A1 (ko) * 2017-08-22 2019-02-28 삼성전자 주식회사 Tts 모델을 생성하는 시스템 및 전자 장치
US11361750B2 (en) 2017-08-22 2022-06-14 Samsung Electronics Co., Ltd. System and electronic device for generating tts model
JP2021012592A (ja) * 2019-07-08 2021-02-04 株式会社野村総合研究所 データ処理装置

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN111954903B (zh) 多说话者神经文本到语音合成
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
WO2021051544A1 (zh) 语音识别方法及其装置
CN110364171A (zh) 一种语音识别方法、语音识别系统及存储介质
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN111402891B (zh) 语音识别方法、装置、设备和存储介质
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
CN112750446B (zh) 语音转换方法、装置和系统及存储介质
CN112233646A (zh) 基于神经网络的语音克隆方法、系统、设备及存储介质
CN113539240B (zh) 动画生成方法、装置、电子设备和存储介质
CN112349289A (zh) 一种语音识别方法、装置、设备以及存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Kumar et al. Machine learning based speech emotions recognition system
Dave et al. Speech recognition: A review
CN117037796A (zh) 基于多元特征的aigc语音欺诈风控方法、介质及设备
CN113948062B (zh) 数据转换方法及计算机存储介质
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
JPH06102895A (ja) 音声認識モデル学習装置
CN113611285A (zh) 基于层叠双向时序池化的语种识别方法
Lai Application of the artificial intelligence algorithm in the automatic segmentation of Mandarin dialect accent
JP2980382B2 (ja) 話者適応音声認識方法および装置
CN113192483B (zh) 一种文本转换为语音的方法、装置、存储介质和设备