JP5956913B2 - 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 - Google Patents

言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 Download PDF

Info

Publication number
JP5956913B2
JP5956913B2 JP2012250107A JP2012250107A JP5956913B2 JP 5956913 B2 JP5956913 B2 JP 5956913B2 JP 2012250107 A JP2012250107 A JP 2012250107A JP 2012250107 A JP2012250107 A JP 2012250107A JP 5956913 B2 JP5956913 B2 JP 5956913B2
Authority
JP
Japan
Prior art keywords
language model
participant
model generation
probability
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012250107A
Other languages
English (en)
Other versions
JP2014098785A (ja
Inventor
済央 野本
済央 野本
哲 小橋川
哲 小橋川
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012250107A priority Critical patent/JP5956913B2/ja
Publication of JP2014098785A publication Critical patent/JP2014098785A/ja
Application granted granted Critical
Publication of JP5956913B2 publication Critical patent/JP5956913B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は音声認識に用いられる言語モデルを生成する言語モデル生成装置、言語モデル生成方法、プログラムに関する。
音声認識技術を応用して会議録を自動で作成するシステムが知られている(例えば、非特許文献1)。以下、図1、図2を参照して、会議録自動作成システムの従来例について説明する。図1は、従来の会議録自動作成システム9000の構成を示すブロック図である。図2は、従来の会議録自動作成システム9000の動作を示すフローチャートである。図1に示すように、従来の会議録自動作成システム9000は、録音装置7、音声認識装置8、言語モデル生成装置9で構成される。図1の例では、参加者数をK人(Kは1以上の整数)とし、録音装置7は第1マイクロホン71−1、第2マイクロホン71−2、…、第Kマイクロホン71−Kと、音声信号取得部72とを備える。音声認識装置8は、特徴量分析部83と、音声認識処理部84と、認識結果格納部85と、音響モデル記憶部86と、言語モデル記憶部87とを備える。言語モデル生成装置9は、学習コーパス記憶部91と、言語モデル生成部92とを備える。音響モデル記憶部86には音響モデルが記憶されている。音響モデルとは、/a/や/k/など、各音素が持つ音響的特徴を有した辞書である。音声認識における音響モデルは入力音声がどのような音素列かを推測する役割を持つ。言語モデル記憶部87には後述する学習コーパスによって話題ごとに最適化された言語モデルが記憶されている。音声認識における言語モデルはテキストが単語の並びとして適切かを判断するための情報を持った辞書である。一般的な音声認識システムにおいては音響モデルと言語モデルを用いて、入力音声に対して最も適切なテキスト(単語列)を選択する。学習コーパス記憶部91には、学習コーパスが記憶されている。学習コーパスとは、自然言語の文章データを構造化し大規模に集積したもののことである。構造化において文章データには言語情報(品詞、統語構造など)が付与される。言語モデル生成装置9の言語モデル生成部92は、学習コーパスを用いて、話題ごとに最適化された言語モデルを生成する。生成された言語モデルは言語モデル記憶部87に記憶される。図1では、言語モデル生成装置9を音声認識装置8とは別の装置として例示したが、これに限られず、言語モデル生成装置9は音声認識装置8に内蔵されていてもよい。まず、第1〜第Kマイクロホン71−1〜71−Kは、音声信号を収音してアナログ音声信号を出力する(S71)。次に、音声信号取得部72は、アナログ音声信号をディジタル音声信号に変換する(S72)。ディジタル音声信号は、例えばネットワークを介して音声認識装置8に送信される。これ以外にも、例えばディジタル音声信号をメモリーカード等に記憶させ、手動でメモリーカードを音声認識装置8に接続して、メモリーカード内のディジタル音声信号を音声認識装置8に転送することとしてもよい。特徴量分析部83は、ディジタル音声信号から音響特徴量を抽出し、特徴量を取得する(S83)。抽出する特徴量としては、例えば、MFCCs(Mel−Frequency_Cepstral_Coefficients)の1〜12次元と、その変化量であるΔMFCCsなどの動的パラメータや、パワーやΔパワー等を用いる。また、CMN(ケプストラム平均正規化)処理を行ってもよい。特徴量は、MFCCsやパワーに限定したものでは無く、音声認識に用いられるパラメータを用いてもよい。次に、音声認識処理部84は、特徴量と、音響モデルと、言語モデルとを用いて音声認識を行い、音声認識結果を得る(S84)。音声認識処理部84は、音声認識結果を認識結果格納部85に記憶する。
NTT東日本、"会議録作成支援システム VoiceAir"、[online]、[平成24年11月7日検索]、インターネット(URL:http://www.ntt-east.co.jp/business/solution/minutes/index.html)
上述したように、従来の会議録自動作成システム9000では、話題に特化した言語モデルを事前に学習しておくことで十分な音声認識精度が得ることができる。しかし、学習を行うためには大量の話題別の学習コーパスを必要とするためコストが大きい。さらに、話題が未知の場合には話題に特化した言語モデルを事前に学習しておくことが出来ない。
そこで本発明では、会議参加者の間でよく使用される用語に特化した言語モデルを生成することができる言語モデル生成装置を提供することを目的とする。
本発明の言語モデル生成装置は、会議録自動作成システムに用いられる装置であって、個人言語モデル記憶部と、n−gram確率和算部と、正規化部とを備える。
個人言語モデル記憶部は、単語毎のn−gram確率を定義した個人言語モデルであって、前記会議の参加者毎に蓄積された各言語リソースから予め生成した参加者毎の個人言語モデルを記憶する。n−gram確率和算部は、単語毎に、全ての参加者のn−gram確率を和算して和算確率値を計算する。正規化部は、和算確率値の合計が1になるように正規化した正規化確率値を計算し、当該正規化確率値を適応言語モデルとする。
本発明の言語モデル生成装置によれば、会議参加者の間でよく使用される用語に特化した言語モデルを生成することができる。
従来の会議録自動作成システムの構成を示すブロック図。 従来の会議録自動作成システムの動作を示すフローチャート。 実施例1の会議録自動作成システムの構成を示すブロック図。 実施例1の言語モデル生成装置の動作を示すフローチャート。 実施例1の言語モデル適応部の構成を示すブロック図。 実施例1の言語モデル適応部の動作を示すフローチャート。 実施例2の会議録自動作成システムの構成を示すブロック図。 実施例2の言語モデル生成装置の動作を示すフローチャート。 実施例2の言語モデル適応部の構成を示すブロック図。 実施例2の言語モデル適応部の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<本発明の要点>
近年スマートフォンの普及が進み、個人情報端末として多く利用されるようになった。個人情報端末上には、メールや検索履歴といった、ユーザの関心のあるトピックや、ユーザがよく使用する単語など、個人に特化したテキスト(言語)情報が多く含まれる。そこで、本発明では会議参加者の個人情報端末等に記録された情報(参加者毎に蓄積された言語リソース)を用いて、会議参加者と関係が深いトピックや語彙を反映した言語モデル(個人言語モデル)を学習・構築することができる点に着目した。本発明において、個人言語モデルは単語毎のn−gram確率Pを定義したものである。
以下、図3、図4を参照して実施例1の会議録自動作成システム1000について説明する。図3は本実施例の会議録自動作成システム1000の構成を示すブロック図である。図4は本実施例の言語モデル生成装置1の動作を示すフローチャートである。図3に示す通り、本実施例の会議録自動作成システム1000は、録音装置7と、音声認識装置8と、言語モデル生成装置1とからなる。録音装置7と音声認識装置8は、従来技術の会議録自動作成システム9000における同一番号の装置と同じであるから説明を略する。前述同様、会議の参加者はK人であるものとする。言語モデル生成装置1は第1個人言語モデル記憶部11−1と、第2個人言語モデル記憶部11−2と、…、第K個人言語モデル記憶部11−Kと、言語モデル適応部12とを備える。kを1以上K以下の整数とし、第k個人言語モデル記憶部11−kには、k番目の参加者の個人言語モデルが記憶されているものとする。言語モデル適応部12は、K個の個人言語モデルを用いて共通するトピックを抽出し、適応言語モデルを生成する(S12)。本発明では、適応言語モデルに単語n−gramが用いられる。単語n−gramとはn個の単語列を意味し、単語n−gramによる言語モデルは、直前の(n−1)個の単語から次の単語を予測するモデルとして表現される。つまり単語n−gramによる言語モデルは、単語列の出現確率を情報として持ったモデルである。一般的に、n=1の場合unigram、n=2の場合bigram、n=3の場合trigramと呼ばれる。以下、図5、図6を参照して、言語モデル適応部12の詳細を説明する。図5は本実施例の言語モデル適応部12の構成を示すブロック図である。図6は本実施例の言語モデル適応部12の動作を示すフローチャートである。図5に示す通り、言語モデル適応部12はn−gram確率和算部121と、正規化部122とを備える。n−gram確率和算部121は、単語毎に、全ての参加者のn−gram確率Pを和算して和算確率値Ptmpを計算する(SS121)。簡略化のために、K=3名、unigramの言語モデルとした具体例を用いて、サブステップSS121について説明する。3名の参加者をa、b、cと呼ぶこととし、個人言語モデル記憶部11−1には参加者aの個人言語モデルaが、個人言語モデル記憶部11−2には参加者bの個人言語モデルbが、個人言語モデル記憶部11−3には参加者cの個人言語モデルcが、それぞれ記憶されているものとする。前述したように個人言語モデルは、個人情報端末に記録されたメールや検索履歴など、参加者毎に蓄積された各言語リソースから予め生成しておくものとする。個人言語モデルa、b、cにはそれぞれ以下のunigram確率P(x)が含まれるものとする(添え字a,b,cは参加者毎に付与されている)。
Figure 0005956913
この場合、n−gram確率和算部121は単語(音声認識、ラーメン、…)ごとに全ての参加者のunigram確率Pを和算して、和算確率値Ptmpを計算する(SS121)。この場合、和算確率値Ptmpは以下のようになる。
Figure 0005956913
次に正規化部122は、和算確率値Ptmpの合計が1になるように正規化した正規化確率値Padptを計算する(SS122)。上述の具体例の場合、正規化部122は、正規化確率値Padptを以下の値として計算する(SS122)。
Figure 0005956913
正規化部122は、正規化確率値Padptを適応言語モデルとして、音声認識装置8の言語モデル記憶部87に記憶する。
このように本実施例の言語モデル生成装置1によれば、会議参加者の間でよく使用される(話題になる可能性が高い)単語(上述の例では、「音声認識」や「言語モデル」)が認識結果に現れやすく、会議参加者の間であまり使用されない(話題となる確率が低い)単語(上述の例では「ラーメン」や「旅行」など)は認識結果に現れにくい言語モデル(適応言語モデル)を生成することができるため、音声認識精度が向上する。
適応言語モデルを生成する際に、参加者の発言権や発言量等、会議中の話題に対する各参加者の影響力の違いを重み付けによって表現することとしてもよい。実施例2の言語モデル生成装置2は、実施例1の言語モデル生成装置1に上述の重み付け機能を付加した。以下、図7、図8を参照して本実施例の言語モデル生成装置2について説明する。図7は本実施例の会議録自動作成システム2000の構成を示すブロック図である。図8は本実施例の言語モデル生成装置2の動作を示すフローチャートである。図7に示す通り、本実施例の会議録自動作成システム2000は、録音装置7と、音声認識装置8と、言語モデル生成装置2とからなる。録音装置7と音声認識装置8は、従来技術の会議録自動作成システム9000における同一番号の装置と同じであるから説明を略する。前述同様、会議の参加者はK人であるものとする。言語モデル生成装置2は第1〜第K個人言語モデル記憶部11−1〜Kと、言語モデル適応部22と、外部情報記憶部23と、参加者重み計算部24とを備える。第1〜第K個人言語モデル記憶部11−1〜Kについては実施例1の同一番号の構成と同じであるから説明を略する。外部情報記憶部23には、各参加者の会議に対する影響力を表す外部情報パラメータが記憶される。外部情報パラメータの例としては例えば以下が挙げられる。
<メール情報>
A)メール送(受)信量(多い参加者は影響力が大きいと考えられる)
B)メールの(被)reply量/率:(高い参加者は影響力が大きいと考えられる)
C)宛先(TO/CC)の量:(多い参加者は影響力が大きいと考えられる)
D)時間情報(会議開始時刻直近は影響力が大きいと考えられる)
上述のように考える根拠は、メール量、(被)reply量/率、宛先(TO/CC)の量が多い参加者は、その会議において連絡、幹事役、もしくは発起人である可能性が高いためである。推定精度を高めるためには、上述のように時間情報を加味して(会議開始時刻直近に限り)各参加者のメール量、メールの(被)reply量/率、宛先(TO/CC)の量を計測して外部情報パラメータとして記憶しておく。
<役職情報>
E)上司・部下の関係、役職名(役職が上位の参加者は影響力が大きいと考えられる)
F)所属部・課情報(所属部・課によって参加者の影響力が異なると考えられる)
上述のように考える根拠は、役職が上位の参加者はその会議において連絡、幹事役、もしくは発起人である可能性が高いためである。役職情報を外部情報パラメータとして活用するためには、役職情報を数値化しておく必要がある。簡単には係長クラスに1ポイント、課長クラスに2ポイント等を付与すればよい。また、例えば会議の発起人となりやすい課(例えば、営業課、研究開発課、商品企画課など)に大きな係数を与えておき、会議の発起人となりにくい課(例えば、総務課、経理課など)に小さな係数を与えておき、前述した役職情報の外部情報パラメータに対して係数を乗算することとしてもよい。これらの外部情報パラメータを組み合わせて利用してもよい。
参加者重み計算部24は、外部情報パラメータを用いて参加者重みを計算する(S24)。例えば上述の具体例における参加者a、b、cのメール送信量をそれぞれM、M、Mとした時に、参加者重み計算部24は、参加者x(x=a、b、c)の重みWを次式で計算する。
=M/ΣM
参加者重みWは0<W<1のレンジで与え、全ての参加者の参加者重みの和Σ1〜KWが1となるように与える。次に、言語モデル適応部22は、個人言語モデル、参加者重みWから適応言語モデルを生成する(S22)。以下、図9、図10を参照して、言語モデル適応部22の詳細を説明する。図9は本実施例の言語モデル適応部22の構成を示すブロック図である。図10は本実施例の言語モデル適応部22の動作を示すフローチャートである。図9に示す通り、言語モデル適応部22は重み付け部221と、重み付け確率和算部222とを備える。重み付け部221は、参加者毎のn−gram確率Pに参加者重みWを乗算して重みつき確率値P’を生成する(SS221)。K=3名(参加者a、b、c)、unigramの言語モデルとした前述の具体例に則して、サブステップSS221について説明する。ここで、参加者a、b、cの外部情報パラメータに基づいて参加者重み計算部24が計算した参加者重みがW=0.2、W=0.2、W=0.6であったとする。この場合、重みつき確率値P’は以下のようになる。
Figure 0005956913
次に、重み付け確率和算部222は、重みつき確率値P’を単語毎に和算し正規化確率値Padptを計算する(SS222)。上述の具体例に則してサブステップSS222を説明すれば、正規化確率値Padptは以下のように計算される。
Figure 0005956913
重み付け確率和算部222は、正規化確率値Padptを適応言語モデルとして、音声認識装置8の言語モデル記憶部87に記憶する。
このように本実施例の言語モデル生成装置2によれば、実施例1の効果に加えて、各参加者の会議中の話題に対する影響度の大きさを考慮して、会議参加者の間で話題になる可能性が高い単語(上述の例では、「音声認識」や「言語モデル」に加え、「探索」)が認識結果に現れやすく、会議において話題となる可能性が低い単語(上述の例では「ラーメン」や「旅行」など)は認識結果に現れにくい言語モデル(適応言語モデル)を生成することができるため、音声認識精度がさらに向上する。
<変形例1>
また、外部リソースとしてメールや資料などの時間情報(例えば作成日時)などを活用して単語毎に重みを変えてもよい。例えば、直近のメールや資料などに含まれる単語・トピックには大きい重みをあたえる。逆に過去にはよく話されていたが、最近はあまり話されていないようなものには重みを小さくする。重み付けの手段としては以下の日時情報などの外部情報パラメータを利用してもよい。
<日時情報>
例えば、外部リソースとしてメールや資料などがあった時に、それらの日時情報(例えば作成日時)などをもとに、直近のメールや資料などに含まれる単語・トピックには大きい重みをあたえる。逆に過去にはよく話されていたが、最近はあまり話されていないようなものには重みを小さくする。
また、上述の具体例では、unigramの言語モデルの例を示したが、これに限られずbigramやtrigramの言語モデルであってもよい。bigramやtrigramで上述の操作を行った場合、単語連鎖確率のバランスが崩れ、認識精度が劣化してしまう可能性もある。その場合、unigram確率からbigram、trigram確率の推定値を求めるUnigram_Rescalingと呼ばれる手法を用いてもよい。ベース言語モデルのtrigram確率をP(w|wn−2,wn−1)、unigram確率をP(w)、適応モデルのtrigramをPadpt(w|wn−2,wn−1)、unigram確率をPadpt(w)、Unigram_Scaling係数をαとすると、適応言語モデルのtrigram確率は以下の式によって計算される。
Figure 0005956913
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 会議録自動作成システムに用いられる言語モデル生成装置であって、
    単語毎のn−gram確率を定義した個人言語モデルであって、会議の参加者毎に蓄積された各言語リソースから予め生成した参加者毎の個人言語モデルを記憶する個人言語モデル記憶部と、
    単語毎に、全ての参加者のn−gram確率を和算して和算確率値を計算するn−gram確率和算部と、
    前記和算確率値の合計が1になるように正規化した正規化確率値を計算し、当該正規化確率値を適応言語モデルとする正規化部と、
    を備える言語モデル生成装置。
  2. 会議録自動作成システムに用いられる言語モデル生成装置であって、
    単語毎のn−gram確率を定義した個人言語モデルであって、会議の参加者毎に蓄積された各言語リソースから予め生成した参加者毎の個人言語モデルを記憶する個人言語モデル記憶部と、
    前記参加者の前記会議に対する影響力を表す外部情報パラメータが記憶された外部情報記憶部と、
    前記外部情報パラメータを用いて参加者重みを計算する参加者重み計算部と、
    参加者毎のn−gram確率に参加者重みを乗算して重みつき確率値を生成する重み付け部と、
    重みつき確率値を単語毎に和算して正規化確率値を計算し、当該正規化確率値を適応言語モデルとする重み付け確率和算部と、
    を備える言語モデル生成装置。
  3. 会議録自動作成システムに用いられる言語モデル生成装置が実行する言語モデル生成方法であって、
    前記言語モデル生成装置は、個人言語モデル記憶部を備え、
    前記個人言語モデル記憶部には、単語毎のn−gram確率を定義した個人言語モデルであって、会議の参加者毎に蓄積された各言語リソースから予め生成した参加者毎の個人言語モデルが記憶され、
    前記言語モデル生成装置は、
    単語毎に、全ての参加者のn−gram確率を和算して和算確率値を計算するn−gram確率和算ステップと、
    前記和算確率値の合計が1になるように正規化した正規化確率値を計算し、当該正規化確率値を適応言語モデルとする正規化ステップと、
    を実行する言語モデル生成方法。
  4. 会議録自動作成システムに用いられる言語モデル生成装置が実行する言語モデル生成方法であって、
    前記言語モデル生成装置は、個人言語モデル記憶部と、外部情報記憶部とを備え、
    前記個人言語モデル記憶部には、単語毎のn−gram確率を定義した個人言語モデルであって、会議の参加者毎に蓄積された各言語リソースから予め生成した参加者毎の個人言語モデルが記憶され
    前記外部情報記憶部には、前記参加者の前記会議に対する影響力を表す外部情報パラメータが記憶され、
    前記言語モデル生成装置は、
    前記外部情報パラメータを用いて参加者重みを計算する参加者重み計算ステップと、
    参加者毎のn−gram確率に参加者重みを乗算して重みつき確率値を生成する重み付けステップと、
    重みつき確率値を単語毎に和算して正規化確率値を計算し、当該正規化確率値を適応言語モデルとする重み付け確率和算ステップと、
    を実行する言語モデル生成方法。
  5. 請求項3、または4に記載された言語モデル生成方法の各ステップをコンピュータに実行させるためのプログラム。
  6. 請求項3、または4に記載された言語モデル生成方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
JP2012250107A 2012-11-14 2012-11-14 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 Expired - Fee Related JP5956913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012250107A JP5956913B2 (ja) 2012-11-14 2012-11-14 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012250107A JP5956913B2 (ja) 2012-11-14 2012-11-14 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2014098785A JP2014098785A (ja) 2014-05-29
JP5956913B2 true JP5956913B2 (ja) 2016-07-27

Family

ID=50940840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012250107A Expired - Fee Related JP5956913B2 (ja) 2012-11-14 2012-11-14 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP5956913B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6230987B2 (ja) * 2014-12-01 2017-11-15 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP3621686B2 (ja) * 2002-03-06 2005-02-16 日本電信電話株式会社 データ編集方法、データ編集装置、データ編集プログラム
JP5558284B2 (ja) * 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
JP5478478B2 (ja) * 2010-12-15 2014-04-23 日本放送協会 テキスト修正装置およびプログラム

Also Published As

Publication number Publication date
JP2014098785A (ja) 2014-05-29

Similar Documents

Publication Publication Date Title
KR101634086B1 (ko) 감정 분석을 통한 스티커 추천 방법 및 시스템
US10623573B2 (en) Personalized support routing based on paralinguistic information
US8996371B2 (en) Method and system for automatic domain adaptation in speech recognition applications
US9305553B2 (en) Speech recognition accuracy improvement through speaker categories
CN111837116B (zh) 自动构建或更新对话式ai系统的对话流管理模型的方法
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
JP2004355003A (ja) 名前付きエンティティ認識を機能強化するユーザモデル化のシステムおよび方法。
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
JP2006039575A (ja) 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US11354754B2 (en) Generating self-support metrics based on paralinguistic information
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
KR102100214B1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
KR102120751B1 (ko) 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN112863489B (zh) 语音识别方法、装置、设备及介质
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
CN114416989A (zh) 一种文本分类模型优化方法和装置
KR101950387B1 (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
US11615787B2 (en) Dialogue system and method of controlling the same
KR20190103951A (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
Nasr et al. End-to-end speech recognition for arabic dialects
JP5956913B2 (ja) 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160617

R150 Certificate of patent or registration of utility model

Ref document number: 5956913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees