JP6493866B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6493866B2
JP6493866B2 JP2013233890A JP2013233890A JP6493866B2 JP 6493866 B2 JP6493866 B2 JP 6493866B2 JP 2013233890 A JP2013233890 A JP 2013233890A JP 2013233890 A JP2013233890 A JP 2013233890A JP 6493866 B2 JP6493866 B2 JP 6493866B2
Authority
JP
Japan
Prior art keywords
data
reading
target text
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013233890A
Other languages
English (en)
Other versions
JP2015094848A (ja
Inventor
隆輝 立花
隆輝 立花
伸泰 伊東
伸泰 伊東
岳人 倉田
岳人 倉田
雅史 西村
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2013233890A priority Critical patent/JP6493866B2/ja
Publication of JP2015094848A publication Critical patent/JP2015094848A/ja
Application granted granted Critical
Publication of JP6493866B2 publication Critical patent/JP6493866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、音声認識等の音声処理を実行する場合、文字列、単語列等の生起確率を与える言語モデルを用いていた。そして、音声認識等の精度を高めるように、当該言語モデルを学習することが知られている(例えば、特許文献1、2、および3等参照)。
[特許文献1] 特開2009−217006号公報
[特許文献2] 特開2007−4633号公報
[特許文献3] 特開2008−216756号公報
しかしながら、このような言語モデルは、文字列、単語列等の表記(スペリング)に対する確率を与えるモデルが多かったので、複数の読みを有する対象テキストに対して精度良く音声処理することは困難であった。それらのモデルでは、読み(発音)に対する確率を表記に対する確率で代替していたので、精度の向上には限度があった。また、読みに対する確率の情報を人手で加えて言語モデルを生成することもできるが、モデルを構築するのに手間と時間がかかり、現実的ではない。
本発明の第1の態様においては、対象テキストに読みを付与する情報処理装置であって、音声データを取得する音声データ取得部と、音声データを音声認識して音声データの読みの統計データとして音声のユニグラムデータおよび音声のn−グラムデータを含む第1統計モデルを生成する生成部と、対象テキストを解析して、第1統計モデルの少なくとも音声のユニグラムデータに基づいて対象テキストの読みの候補を予測し、音声のユニグラムデータおよび音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて対象テキストの読みの候補の数を減じる予測部と、第1統計モデルの少なくとも音声のn−グラムデータおよび予測部において数が減じられた対象テキストの読みの候補に基づいて、対象テキストに付与する読みを決定する決定部と、を備える情報処理装置、情報処理方法、およびプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施形態に係る情報処理装置100の構成例を示す。 本実施形態に係る情報処理装置100の動作フローの構成例を示す。 本実施形態に係る予測部150が生成する格子構造の一例を示す。 本実施形態に係る情報処理装置100の変形例を示す。 本実施形態に係る情報処理装置100として機能するコンピュータ1900のハードウェア構成の一例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係る情報処理装置100の構成例を示す。情報処理装置100は、対象テキストに読みを自動的に付与し、当該対象テキストを用いて言語モデルの学習を実行する。本実施形態において、対象テキストは、自然言語の文章の表記(スペリング)を示すデータである。情報処理装置100は、音声データ取得部110と、記憶部120と、生成部130と、入力部140と、予測部150と、決定部160と、コーパス出力部170と、学習部180とを備える。
音声データ取得部110は、音声データを取得する。音声データ取得部110は、ユーザの音声を取得してもよく、これに代えて、ユーザとは異なる人物の音声を取得してよい。音声データ取得部110は、マイクロフォン等に接続され、音声を電気信号の音声データに変換して取得してよく、これに代えて、予め定められた形式で記憶された音声データを読み出して取得してもよい。音声データ取得部110は、ネットワーク等に接続され、当該ネットワークを介して音声データを取得してもよい。また、音声データ取得部110は、有線または無線で送信された放送を受信して、音声データを取得してもよい。音声データ取得部110は、取得した音声データを記憶部120に供給する。
記憶部120は、音声データ取得部110に接続され、音声データ取得部110から受け取った音声データを記憶する。記憶部120は、生成部130の要求に応じて当該生成部130に、記憶した音声データを供給する。また、記憶部120は、辞書データ等を記憶する。また、記憶部120は、情報処理装置100が言語モデルを学習する過程における処理データを記憶してよい。
生成部130は、記憶部120に接続され、受け取った音声データを音声認識して音声データの読み(発音)の統計データを含む第1統計モデルを生成する。これに代えて、生成部130は、音声データ取得部110に接続され、音声データ取得部110から音声データを受け取ってもよい。生成部130は、音声認識によって、音声データを対応する表記および読みのデータに変換する。生成部130は、音声認識結果である表記および読みのデータを記憶部120に記憶する。また、生成部130は、生成した第1統計モデルを記憶部120に記憶してもよい。
入力部140は、対象テキストが入力される。入力部140は、予め定められた形式で記憶されたテキストデータを対象テキストとして入力してよい。入力部140は、ネットワーク等に接続され、当該ネットワークを介して対象テキストを入力データとして取得してもよい。入力部140は、一例として、ニュースサイト等の記事等、webに公開された情報から対象テキストを取得して入力する。入力部140は、対象テキストを予測部150に供給する。
予測部150は、記憶部120および入力部140に接続され、受け取った対象テキストを解析して対象テキストの読みの候補を予測する。予測部150は、対象テキストを単語または形態素といった基本的な要素に構造化し、当該基本的な要素のそれぞれに読みを割り当て、対象テキストの読みの複数の候補に対してスコアを付与する。予測部150は、スコア付きの複数の候補の情報を決定部160に供給する。
決定部160は、記憶部120および予測部150に接続され、記憶部120から読み出した第1統計モデルおよび予測部150から受け取った対象テキストの読みの候補に基づいて、対象テキストに付与する読みを決定する。決定部160は、一例として、音声データの読みの統計データに基づき、対象テキストの読みの候補に付与されたスコアを更新する。決定部160は、更新したスコア付きの複数の候補の情報をコーパス出力部170に供給する。
コーパス出力部170は、決定部160が決定した読みを対象テキストに割り当てたテキストコーパスを出力する。コーパス出力部170は、決定部160が更新したスコアに基づき、対象テキストに割り当てる読みを選択して対象テキストに割り当て、テキストコーパスとして出力する。コーパス出力部170は、1または複数の読みを選択してよい。コーパス出力部170は、テキストコーパスを学習部180に供給する。
学習部180は、コーパス出力部170に接続され、コーパス出力部170が出力したテキストコーパスを用いて、入力音声を認識してテキストを出力する音声認識用の言語モデルを学習する。即ち、学習部180は、音声データの読みの統計データを反映させたテキストコーパスを用いて言語モデルを学習する。
従来、対象テキストの表記に基づいて言語モデルを学習し、例えば、「人」という単語の表記に対応する1つの確率を生成していたが、この場合、「ヒト」、「ビト」、「ジン」、「ト」といった複数の読みの確率まで生成することはできない。そこで、読みの確率を表記の確率で代替して用いていたが、読みに応じて生起確率が異なる場合、学習結果は実際の生起確率とは大きく異なってしまうことになる。
また、読みの確率を手作業で付与して言語モデルを学習することもできるが、手間と時間がかかり、言語モデルを生成する現実的な手法ではない。そこで、本実施形態の情報処理装置100は、対象テキストに読みを自動で割り当て、読みを割り当てたテキストコーパスを用いて言語モデルを学習するので、音声データの認識結果を反映させた学習結果を自動で得ることができる。情報処理装置100が対象テキストに読みを自動で割り当てて学習する動作を次に説明する。
図2は、本実施形態に係る情報処理装置100の動作フローの構成例を示す。まず、音声データ取得部110は、音声データを取得する(S200)。音声データ取得部110は、対象テキストと略同一の内容の音声データを含んだ音声データを取得してよい。また、音声データ取得部110は、対象テキストとは少なくとも一部が異なる内容についての音声データを取得してもよい。これに代えて、音声データ取得部110は、対象テキストとは異なる内容の音声データを取得してもよい。
ここで、音声データを生成部130が音声認識した場合、正しく認識されないことも生じる。そこで、このような認識誤りの影響を低減すべく、音声データ取得部110は、より多くの音声データを取得することが望ましい。例えば、音声データ取得部110は、生成部130の音声認識の認識誤りが予め定められた頻度以下となるように、音声データを取得して蓄積してよい。これに代えて、音声データ取得部110は、音声認識の認識誤りが統計的に十分に無視できる程度に、予め定められたデータ量以上の音声データを取得して蓄積してもよい。
また、生成部130は、音声データを音声認識した結果、読みの確度が予め定められた基準確度未満の部分を除いて第1統計モデルを生成してもよい。例えば、音声データには、認識することが困難な程度に声量が低い(高い)データ、早口なデータ、および雑音を含むデータ等が含まれる場合があり、読みの確度が低減する場合がある。この場合、生成部130は、このような読みの確度を低減させる音声認識結果を省いて、第1統計モデルを生成してよい。
次に、生成部130は、音声データを音声認識して、第1統計モデルを生成する(S210)。生成部130は、音声認識結果から、例えば、音声データの読みの統計データとして、音声のユニグラム(unigram)データおよび音声のn−グラム(n−gram)データを生成する。
ここで、本実施形態において、音声データの読みの統計データは、表記の情報も含めた統計データである。例えば、音声のユニグラムデータは、単に「ヒト」、「ビト」、「ジン」、・・・といった読みの生起確率ではなく、「人」の表記に対して、「ヒト」、「ビト」、「ジン」、および「ト」と発音した確率を示す。一例として、音声のユニグラムデータを、次式のように表す。
(数1)
Prspeech,P(h.i.t.o|人)=0.53
Prspeech,P(b.i.t.o|人)=0.26
Prspeech,P(j.i.N|人)=0.18
Prspeech,P(t.o|人)=0.03
ここで、Prspeech,P()は、音声データの読みの統計データを示し、「h.i.t.o.」は「ヒト」の読みを示す。即ち、(数1)式は、表記「人」に対して、音声データが「ヒト」と発音した確率が0.53であることを示し、音声データが「ビト」と発音した確率が0.26であることを示す。また、「人」の表記に対応する読み「ヒト」、「ビト」、「ジン」、および「ト」のそれぞれの確率の総和が1になるように、規格化した例を示す。
また、音声のユニグラムデータは、前後の文脈は考慮しない場合の確率を示す。即ち、一の表記(例えば「人」)の前後に並ぶ他の表記に関係なく、当該一の表記「人」に対する音声が「ヒト」である確率を示す。一方、音声のn−グラムデータは、前後の文脈を考慮した場合の確率を示す。即ち、一の表記(例えば「人」)の前後に並ぶ他の表記(例えば「英国」)に対して、当該一の表記「人」が例えば「ヒト」と発音された確率を示す。
一例として、音声のn−グラムデータを、次式のように表す。
(数2)
Prspeech,P(h.i.t.o|英国,人)=0.02
Prspeech,P(b.i.t.o|英国,人)=0.12
Prspeech,P(j.i.N|英国,人)=0.85
Prspeech,P(t.o|英国,人)=0.01
即ち、(数2)式は、表記「人」に対して、表記「英国」の後に音声データが「ジン」と発音した確率が0.85であることを示し、表記「英国」の後に音声データが「ト」と発音した確率が0.01であることを示す。(数2)式の場合においても、「人」の表記に対応する読み「ヒト」、「ビト」、「ジン」、および「ト」のそれぞれの確率の総和が1になるように、規格化した例を示す。
また、生成部130は、音声認識結果から、音声データの表記の統計データとして、表記のユニグラムデータおよび表記のn−グラムデータを生成し、当該表記の統計データも第1統計モデルとしてもよい。一例として、表記のユニグラムデータを、次式のように表す。
(数3)
Prspeech,W(人)=0.0022
Prspeech,W(英国)=0.0013
ここで、Prspeech,W()は、音声データの表記の統計データを示す。即ち、(数3)式は、音声認識した結果の表記データのうち、表記「人」が発生する確率が0.002であり、表記「英国」が発生する確率が0.0013であることを示す。表記の統計データは、表記(例えば「人」)がどのように発音されているかは関係なしに、統計を取った結果である。ここで、生成部130は、表記データの全ての単語に対する発生確率の総和が1になるように、規格化してもよい。
また、一例として、表記のn−グラムデータを、次式のように表す。
(数4)
Prspeech,W(人|英国)=0.5
即ち、(数4)式は、音声認識した結果として得られた表記データのうち、表記「英国」が発生した後に表記「人」が発生する確率が0.5であることを示す。このように、表記のn−グラムデータは、表記(例えば「人」)の前後の文脈を考慮した場合の確率を示す。本実施例において、生成部130が、音声データを音声認識して音声データの読みおよび表記の統計データを含む第1統計モデルを生成する例を説明する。生成部130は、このように生成した第1統計モデルを記憶部120に記憶する。
情報処理装置100は、音声データを取得するステップS200から、生成部130の第1統計モデルを生成するステップS210までを予め実行して、記憶部120に記憶してよい。これに代えて、情報処理装置100は、ステップS200からステップS210までを繰り返し実行して、音声データの読みおよび表記の統計データの蓄積を継続させ第1統計モデルの更新を繰り返してもよい。
次に、入力部140から入力された対象テキストを、予測部150が解析する(S220)。予測部150は、対象テキストを構成する単語の境界の候補を列挙した後に、読みを割り当て、格子構造を生成する。ここで、一例として、「京都の英国人」を対象テキストとした場合、予測部150は、「京都/の/英国/人」、「京都/の/英/国/人」、および「京/都/の/英/国/人」等の基本的な要素に分解して構造化する。
そして、予測部150は、それぞれの要素に読みを割り当てる。予測部150は、記憶部120に予め記憶された辞書データ等を用いて、読みを割り当ててよい。また、予測部150は、例えば対象テキストが言語モデル等から供給された場合等、既に対象テキストに読みのデータが割り当てられている場合は、そのまま割り当てられたデータを用いてもよい。
予測部150は、例えば、「京都」の表記には「キョウト」の読みを、「の」の表記には「ノ」を、「英国」の表記には「エイコク」および「イギリス」の読みを、「人」の表記には「ヒト」、「ビト」、「ジン」、および「ト」の読みをそれぞれ割り当てる。予測部150は、この段階において、それぞれの要素に対して複数の読みの全てをそれぞれ割り当ててよい。
そして、予測部150は、それぞれの要素を並べ、並べた要素間を格子状に接続し、対象テキストである「京都の英国人」の読み方の組み合わせを示す格子構造を生成する。予測部150は、全ての読み方の組み合わせに対応する格子構造を生成してよい。
図3は、本実施形態に係る予測部150が生成する格子構造の一例を示す。図3において、予測部150が、対象テキスト「京都の英国人」の文頭から文末までを、各要素に割り当てた読みに応じて分岐させた格子構造を生成した例を示す。即ち、文頭から文末まで、後戻りなしに各要素を通過する異なる行程の数が、対象テキストの読み方の数となり、行程を通過する順に読みを繋げると対象テキストの読み方の候補となる。
例えば、図中の行程Aは、「京都(キョウト)/の(ノ)/英国(エイコク)/人(ジン)」といった候補を示し、行程Bは、「京都(キョウト)/の(ノ)/英国(イギリス)/人(ビト)」といった候補を示す。以上のように、予測部150は、対象テキストを解析して対象テキストの読みの複数の候補を生成する。
次に、予測部150は、対象テキストを構成する単語の境界およびその読みの候補を予測する(S230)。予測部150は、一例として、第1統計モデルの表記のユニグラムデータおよび読みのユニグラムデータを用いて、対象テキストの読みの複数の候補に対してスコアを付与する。
予測部150は、例えば、対象テキストの読み方の候補に対して、当該候補が有する各要素に割り当てた読みにそれぞれ対応する読みのユニグラムデータの確率を各要素のスコアとし、各要素のスコアの積を当該候補のスコアとして付与する。予測部150は、一例として、「京都(キョウト)/の(ノ)/英国(エイコク)/人(ジン)」といった候補に対して、各要素の読みに対応する確率を各要素のスコアとして「京都(キョウト:1)/の(ノ:1)/英国(エイコク:0.85)/人(ジン:0.18)」とし、各要素のスコアの積(1×1×0.85×0.18=0.153)を当該候補のスコアとして付与する。
また、予測部150は、既に対象テキストに読みのデータおよびスコアが割り当てられている場合は、当該割り当てられたスコアを上記の候補のスコアに更に乗じてよく、これに代えて、そのまま割り当てられたデータを用いてもよい。予測部150は、対象テキストの読みの複数の候補に対してそれぞれスコアを付与する。
ここで、予測部150は、対象テキストの読みの候補を予め定められた数の候補に絞り込んでよい。予測部150は、一例として、第1統計モデルの表記のユニグラムデータを用いて、対象テキストの読みの候補の数を減じる。対象テキストの読みの候補には、例えば、「京(キョウ)/都(ト)/の(ノ)/英(ヒデ)/国(クニ)/人(ヒト)」といった、明らかに単語の境界が細分化され過ぎている候補も含まれているので、予測部150は、このような候補を排除してよい。
予測部150は、例えば、対象テキストの読み方の候補に対して、当該候補が有する各要素の表記にそれぞれ対応する表記のユニグラムデータの確率を割り当て、割り当てた確率の積に応じて当該候補を排除するか否かを決定する。予測部150は、一例として、「京(キョウ)/都(ト)/の(ノ)/英(ヒデ)/国(クニ)/人(ヒト)」といった候補に対して、各要素の表記に対応する確率を「京(x)/都(x)/の(x)/英(x)/国(x)/人(x)」と割り当て、各要素の確率の積X(=x×x×x×x×x×x)を算出する。
ここで、予測部150は、例えば、x=Prspeech,W(京)のように、(数3)式を用いてx〜xを割り当てる。予測部150は、それぞれの候補に対応する各要素の確率の積Xを算出し、大きい方から順に予め定められた数の候補を残してよく、これに代えて、小さい方から順に予め定められた数の候補を排除してもよい。これによって、予測部150は、単語の境界が現実的ではない候補を予め定められた数に絞り込むことができる。
これに代えて、予測部150は、各要素の確率の積Xが予め定められた値よりも小さい場合に、対応する候補を排除してもよい。この場合、予測部150は、読みの候補が適切な数に絞り込まれるように、一度絞り込みを実行し、絞り込まれた数に応じて当該予め定められた値を再設定して、絞り込みを繰り返してもよい。
また、予測部150は、表記のユニグラムデータに加えて、または表記のユニグラムデータに代えて、表記のn−グラムデータを用いて現実的ではない候補を絞り込んでよい。この場合、予測部150は、一例として、x=Prspeech,W(都|京)のように、(数4)式を用いてx〜xを割り当てる。
また、予測部150は、既に対象テキストに表記のスコアが割り当てられている場合は、そのまま割り当てられたスコアを用いて候補を排除してもよい。これに代えて、予測部150は、既に割り当てられたスコアと、表記のユニグラムデータから算出されるスコアとを乗じた値を絞り込み用のスコアとしてもよい。
このように、予測部150は、表記のユニグラムデータから単語の境界が現実的ではない候補を排除することができるので、対象テキストの格子構造の規模が膨大になることを防ぎ、それぞれの候補に対してスコアを付与する動作を高速化することができる。また、予測部150は、表記および音声のデータに基づき、対象テキストを構成する単語の境界およびその読みの候補を予測することができる。
予測部150は、候補のスコアを大きい順に並べ、スコアが大きい方から順に予め定められたn個の対象テキストの読み方の候補をn−ベストリストとして生成し、対象テキストの単語の境界および読みの候補の予測結果として当該n−ベストリストを出力する。これに代えて、予測部150は、候補のスコアを大きい順に並べたリストをそのままn−ベストリストとして生成し、対象テキストの予測結果として当該n−ベストリストを出力してもよい。
予測部150が出力するn−ベストリストの第1位から4位までの一例を、次式に示す。
(数5)
=「京都(キョウト)/の(ノ)/英国(エイコク)/人(ジン)」
=「京都(キョウト)/の(ノ)/英国(エイコク)/人(ビト)」
=「京都(キョウト)/の(ノ)/英国(イギリス)/人(ジン)」
=「京都(キョウト)/の(ノ)/英/(ヒデ)/国(クニ)/人(ヒト)」
決定部160は、対象テキストを構成する単語の境界とその読みの候補から対象テキストの単語境界および読みを決定する。即ち、決定部160は、予測部150からn−ベストリストを受け取り、対象テキストに付与する読みを決定する。ここで、決定部160は、第1統計モデルに基づいて、n−ベストリストに含まれる複数の候補のそれぞれの予測確度を算出する。
まず、決定部160は、文脈を考慮して複数の候補の予測確度を算出し、各候補に対して再びスコアをつけて(リスコア)受け取ったn−ベストリストを更新する(S240)。決定部160は、例えば、音声のn−グラムデータを用い、各候補の境界で区切られた単語間の並びに応じて、予測確度を算出する。
決定部160は、一例として、(数5)式のtで示された候補に対して、Prspeech,P1(n.o|京都,の)、Prspeech,P2(e.i.k.o. k.u|の,英国)、Prspeech,P3(j.i.N|英国,人)の音声のn−グラムデータの確率を割り当て、割り当てた確率の積をリスコア値とする。決定部160は、t、t、・・・といった各候補に対してリスコア値を算出してn−ベストリストを更新する。
これに加えて、決定部160は、表記のn−グラムデータを用いて予測確度を算出してもよい。決定部160は、一例として、tに対して、Prspeech,W1(の|京都)、Prspeech,W2(英国|の)、Prspeech,W3(人|英国)を割り当て、当該確率の積を、音声のn−グラムデータの確率の積に更に乗じてリスコア値とする。
また、決定部160は、表記のユニグラムデータおよび/または音声のユニグラムデータを更に用いてもよい。この場合、決定部160は、各候補の境界で区切られた単語に対応するユニグラムデータの確率の積を、n−グラムデータの確率の積に乗じてリスコア値としてよい。
決定部160は、リスコア値の大きい方から順に、各候補を並べてn−ベストリストを更新する。ここで、決定部160は、n−ベストリストにおける各候補のリスコア値の合計が1となるように、リスコア値を規格化してもよい。これによって、決定部160は、複数の候補のそれぞれを、予測確度に基づく確率の順に並べたリストを生成することができる。
次に、決定部160は、複数の候補のそれぞれの予測確度に基づいて、複数の候補の中から対象テキストに付与すべき読みを選択する(S250)。決定部160は、複数の候補のそれぞれの予測確度に基づく確率に基づいて、複数の候補から少なくとも1つの候補の読みを選択する。
決定部160は、例えば、n−ベストリストの各候補のうち、予測確度に基づく確率に応じて、1つの候補の読みを選択する。決定部160は、一例として、候補tの確率(リスコア値)が0.8、候補tの確率が0.15、候補tの確率が0.05の場合、当該確率と略同一の選択確率で、1の候補を選択する。この場合、例えば、同一の対象テキストを100回入力すると、決定部160は、候補tを略80回選択し、候補tを略15回選択し、候補tを略5回選択することになる。
これに代えて、決定部160は、n−ベストリストの各候補のうち、予測確度に基づく確率に応じて、複数の候補を選択してもよい。決定部160は、各候補のそれぞれの確率(リスコア値)と略同一の選択確率で、複数の候補を選択する。この場合、例えば、同一の対象テキストから100回選択させると、決定部160は、候補tを略80回選択し、候補tを略15回選択し、候補tを略5回選択することになる。
以上のように、本実施形態の決定部160は、予測部150が生成したn−ベストリストを更新した後に、予め定められた数の読みの候補を選択して出力する。ここで、予測部150が、対象テキストの読みの候補を絞り込んだ場合、決定部160は、第1統計モデルに基づいて、予測部が絞り込んだ複数の候補の中から少なくとも1つの候補の読みを選択することになる。
これに代えて、決定部160は、対象テキストに対し、複数の候補のうち2以上の候補の読みを付与してもよい。決定部160は、例えば、更新したn−ベストリストの各候補の確率(リスコア値)を出力する。また、決定部160は、更新したn−ベストリストのうち、予め定められた順位までの候補の確率を出力してもよい。
このように、本実施形態の情報処理装置100は、第1統計モデルが有するユニグラムデータを用いてn−ベストリストを生成した後に、第1統計モデルが有するn−グラムデータを用いて、n−ベストリストをリスコアして更新する。即ち、情報処理装置100は、文脈を考慮しない大雑把な対象テキストの解析に基づいてn−ベストリストを生成し、その後に、文脈を考慮した詳細な対象テキストの解析に基づいてn−ベストリストを更新する。
これによって、情報処理装置100は、文脈を考慮した解析を実行して、文脈を考慮しない解析に比べてより正確な対象テキストの読みの候補の確率を出力することができる。また、情報処理装置100は、対象テキストを最初から文脈を考慮して解析することなしに、より高速に読みの候補の確率を出力することができる。
また、情報処理装置100は、音声および表記のユニグラムデータを用いてn−ベストリストを生成するので、対象テキストの単語の境界を、音声および表記の両方の観点からバランスよくフェアに解析することができる。また、情報処理装置100は、音声のn−グラムデータを用いてn−ベストリストを更新するので、音声認識に適した境界区切りおよび読みの候補の選択を実行することができる。
また、情報処理装置100は、対象テキストの入力および予め記憶された辞書データ等とは別個に、音声データの音声認識結果から第1統計モデルを生成するので、音声認識結果をより多く蓄積することで、より正確な対象テキストの読みの候補の確率を出力することができる。
次に、コーパス出力部170は、決定部160が決定した読みを対象テキストに割り当てたテキストコーパスを学習部180に出力する。ここで、コーパス出力部170は、決定部160が複数の読みを決定した場合、それぞれの読みに対して対象テキストを割り当てたテキストコーパスを学習部180に出力してよい。また、コーパス出力部170は、決定部160が複数の候補の読みを決定した場合、当該複数の候補の読みに対して対象テキストをそれぞれ割り当てたテキストコーパスを、当該候補の確率と共に学習部180に出力してよい。
次に、学習部180は、受け取ったテキストコーパスに基づき、音声認識用の言語モデルを学習する(S260)。即ち、学習部180は、対象テキストと、当該対象テキストのより確率の高い読みの候補とを用いて、学習することができる。また、学習部180は、対象テキストの読みの候補の確率に基づき、学習することができる。学習部180は、学習によって得られた言語モデルを情報処理装置100の処理結果として出力する。
即ち、学習部180は、一例として、ユーザが「英国」の表記を「エイコク」と発音した場合に、次に「人(ジン)」と発声するか、「式(シキ)」と発声するかの確率をそれぞれ蓄積することができる。これによって、ユーザが「英国」の表記を「エイコク」と発音した場合、次にユーザが発声する言葉が雑音等で不鮮明となっても、次にくる言葉が「人(ジン)」であるか「式(シキ)」であるのかを、学習した言語モデルから推定することができる。
また、ユーザが「このビートは」と発声した場合、「ビート」が不鮮明になると、「ビト」と認識され、従来の言語モデルでは「人」の表記が割り当てられてしまう場合があった。また、「この」および「人」の表記の並びは、表記のn−グラムデータを用いると高い確率が対応するので、従来、「このビートは」の発声に対して「この人は」と誤認識される結果を排除することは困難であった。
これに対して、本実施形態の学習部180は、音声のn−グラムデータを用いて読みの候補を選択した結果を用いて学習するので、「ビート」の発音が不鮮明で「人」の表記が割り当てられても、「ビト」と発音した表記の直前にくる他の表記が「この」となる確率は低くなる。したがって、学習部180によって学習された言語モデルは、「このビートは」の発声に対して「この人(ビト)は」と誤認識することを防止することができる。
以上のように、本実施形態の情報処理装置100は、少なくとも音声のn−グラムデータを用いて文脈を考慮した解析を実行するので、対象テキストのより正確な確率の読みの候補を用いて言語モデルを学習することができる。このような学習によって得られる言語モデルを用いることにより、音声認識等の音声処理を精度よく実行することができる。
図4は、本実施形態に係る情報処理装置100の変形例を示す。本変形例の情報処理装置100において、図2に示された本実施形態に係る情報処理装置100の動作と略同一のものには同一の符号を付け、説明を省略する。本変形例の情報処理装置100は、候補取得部410を更に備える。
候補取得部410は、テキストから音声を合成する音声合成装置のテキスト処理部に対して対象テキストを入力して、当該対象テキストの読みの候補を取得する。即ち、候補取得部410は、外部の音声合成装置等に接続され、音声合成装置のテキスト処理結果を対象テキストの読みの候補として取得する。
既存の音声合成装置等は、ニュース等のより文語に近い整った文章に対して、精度よくテキスト処理を実行することができる。そこで、候補取得部410は、音声合成装置等の処理結果を取得して、当該処理結果を決定部160に供給する。
決定部160は、予測部150が予測した読みの候補および音声合成装置のテキスト処理部が出力した読みの候補から、対象テキストに付与する読みを決定する。決定部160は、例えば、候補取得部410から受け取った対象テキストの読みの候補に基づき、リスコア値を補正する。この場合、決定部160は、予測部150が予想した読みの候補のうち、候補取得部410が取得した対象テキストの読みの候補と略同一の読みに対して、予め定められたスコア値をリスコア値に加算して補正してよい。
決定部160は、一例として、候補取得部410から受け取った対象テキストの読みにおいて、単語の境界を除いた読みの情報に変換し、当該変換結果と予測部150が予想した読みの候補とを比較する。ここで、決定部160は、音声合成装置が認識できなかった単語または辞書等になかった単語等が存在する場合、当該単語を任意の単語とマッチする意味のワイルドカード等に変換してよい。
決定部160は、一例として、候補取得部410から受け取った対象テキストの読みが「京都(キョウト)/の(ノ)/英国(エイコク)/人(ジン)」の場合、「キョウトノエイコクジン」と読みの情報に変換する。そして、決定部160は、n−ベストリストの読み候補の読みとマッチングさせて、マッチした単語のリスコア値を補正する。例えば、決定部160は、「英国(エイコク)」、「英国(エイ)」、および「国(コク)」といった単語は、読みがマッチングするのでリスコア値を増加させ、「英国(イギリス)」、「英(ヒデ)」、および「国(クニ)」といった単語は、読みがマッチングしないのでリスコア値を変えない。
これにより、決定部160は、外部の音声合成装置等の処理結果を、n−ベストリストの更新の補助に用いることができる。これにより、本変形例の情報処理装置100は、より文語に近い整った文章が対象テキストに含まれる場合、読みの候補の確率をより高い精度で決定することができる。
また、本変形例の情報処理装置100は、モデル取得部420を更に備える。モデル取得部420は、音声認識用の既存の言語モデルから読みの統計データを含む第2統計モデルを取得する。モデル取得部420は、過去に生成した言語モデル、外部の情報処理装置によって生成された言語モデル、および/または音声合成装置等が生成した言語モデル等から、第2統計モデルを取得してよい。
モデル取得部420が、音声データの読みの統計データとして、音声のユニグラムデータを取得した場合、生成部130は、音声認識から生成した音声のユニグラムデータと、取得した音声のユニグラムデータとを合体させて、新たな音声のユニグラムデータを生成してよい。また、モデル取得部420が、音声のn−グラムデータを取得した場合、生成部130は、音声認識から生成した音声のn−グラムデータと、取得した音声のn−グラムデータとを合体させて、新たな音声のユニグラムデータを生成してよい。
同様に、モデル取得部420が、表記のユニグラムデータを取得した場合、生成部130は、音声認識から生成した表記のユニグラムデータと、取得した表記のユニグラムデータとを合体させてよい。また、モデル取得部420が、表記のn−グラムデータを取得した場合、生成部130は、音声認識から生成した表記のn−グラムデータと、取得した表記のn−グラムデータとを合体させてよい。
以上のように、本変形例の決定部160は、第1統計モデルおよび第2統計モデルに基づいて、対象テキストに付与する読みを決定することができる。即ち、情報処理装置100は、より多くの情報を蓄積した統計データを用いることができ、対象テキストに対する読みの候補の確率をより高い精度で決定することができる。また、モデル取得部420が、表記のユニグラムデータおよびn−グラムデータを取得した場合、情報処理装置100は取得した表記のデータをそのまま用い、生成部130は音声のユニグラムデータおよびn−グラムデータを生成するだけの動作を実行してもよい。
図5は、本実施形態に係る情報処理装置100として機能するコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、および表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、およびDVDドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、および入出力チップ2070を有するレガシー入出力部と、を備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000およびグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010およびRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、DVDドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラムおよびデータを格納する。DVDドライブ2060は、DVD−ROM2095からプログラムまたはデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、および入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、および/または、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラムまたはデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、DVD−ROM2095、またはICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
プログラムは、コンピュータ1900にインストールされ、コンピュータ1900を音声データ取得部110、記憶部120、生成部130、入力部140、予測部150、決定部160、コーパス出力部170、および学習部180として機能させる。
プログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である音声データ取得部110、記憶部120、生成部130、入力部140、予測部150、決定部160、コーパス出力部170、および学習部180として機能する。そして、この具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算または加工を実現することにより、使用目的に応じた特有の情報処理装置100が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、またはDVD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置または通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030または記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、DVDドライブ2060(DVD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、および/または記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(または不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラムまたはモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、DVD−ROM2095の他に、DVD、Blu−ray(登録商標)、またはCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークまたはインターネットに接続されたサーバシステムに設けたハードディスクまたはRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
100 情報処理装置、110 音声データ取得部、120 記憶部、130 生成部、140 入力部、150 予測部、160 決定部、170 コーパス出力部、180 学習部、410 候補取得部、420 モデル取得部、1900 コンピュータ、2000 CPU、2010 ROM、2020 RAM、2030 通信インターフェイス、2040 ハードディスクドライブ、2050 フレキシブルディスク・ドライブ、2060 DVDドライブ、2070 入出力チップ、2075 グラフィック・コントローラ、2080 表示装置、2082 ホスト・コントローラ、2084 入出力コントローラ、2090 フレキシブルディスク、2095 DVD−ROM

Claims (15)

  1. 対象テキストに読みを付与する情報処理装置であって、
    音声データを取得する音声データ取得部と、
    前記音声データを音声認識して、前記音声データの読みの統計データとして音声のユニグラムデータおよび音声のn−グラムデータを含む第1統計モデルを生成する生成部と、
    前記対象テキストを解析して、前記第1統計モデルの少なくとも前記音声のユニグラムデータに基づいて前記対象テキストの読みの候補を予測し、前記音声のユニグラムデータおよび前記音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて前記対象テキストの読みの候補の数を減じる予測部と、
    前記第1統計モデルの少なくとも前記音声のn−グラムデータおよび前記予測部において数が減じられた前記対象テキストの読みの候補に基づいて、前記対象テキストに付与する読みを決定する決定部と、
    を備える情報処理装置。
  2. 前記音声データ取得部は、前記対象テキストとは少なくとも一部が異なる内容についての音声データを取得する請求項1に記載の情報処理装置。
  3. 前記予測部は、前記対象テキストを解析して前記対象テキストの読みの複数の候補を生成し、
    前記決定部は、前記第1統計モデルに基づいて、前記複数の候補のそれぞれの予測確度を算出する
    請求項1または2に記載の情報処理装置。
  4. 前記決定部は、前記複数の候補のそれぞれの予測確度に基づいて、前記複数の候補の中から前記対象テキストに付与すべき読みを選択する請求項3に記載の情報処理装置。
  5. 前記決定部は、前記複数の候補のそれぞれの予測確度に基づく確率に基づいて、前記複数の候補から少なくとも1つの候補の読みを選択する請求項3に記載の情報処理装置。
  6. 前記決定部は、前記対象テキストに対し、前記複数の候補のうち2以上の候補の読みを付与する請求項3に記載の情報処理装置。
  7. 前記予測部は、前記対象テキストの読みの候補を予め定められた数の候補に絞り込み、
    前記決定部は、前記第1統計モデルに基づいて、前記予測部が絞り込んだ複数の候補の中から少なくとも1つの候補の読みを選択する
    請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記生成部は、前記音声データを音声認識して前記音声データの読みおよび表記の統計データを含む前記第1統計モデルを生成し、
    前記予測部は、前記表記の統計データに基づいて、前記対象テキストの読みの候補を絞り込む請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記生成部は、前記音声データを音声認識して前記音声データの読みおよび表記の統計データを含む前記第1統計モデルを生成し、
    前記予測部は、前記対象テキストを構成する単語の境界およびその読みの候補を予測し、
    前記決定部は、前記対象テキストを構成する単語の境界とその読みの候補から前記対象テキストの単語境界および読みを決定する
    請求項1から8のいずれか一項に記載の情報処理装置。
  10. テキストから音声を合成する音声合成装置のテキスト処理部に対して前記対象テキストを入力して、前記対象テキストの読みの候補を取得する候補取得部を更に備え、
    前記決定部は、前記予測部が予測した読みの候補および前記音声合成装置のテキスト処理部が出力した読みの候補から前記対象テキストに付与する読みを決定する請求項1から9のいずれか一項に記載の情報処理装置。
  11. 音声認識用の既存の言語モデルから読みの統計データを含む第2統計モデルを取得するモデル取得部を更に備え、
    前記決定部は、前記第1統計モデルおよび前記第2統計モデルに基づいて、前記対象テキストに付与する読みを決定する
    請求項1から10のいずれか一項に記載の情報処理装置。
  12. 前記生成部は、前記音声データを音声認識した結果、読みの確度が予め定められた基準確度未満の部分を除いて前記第1統計モデルを生成する請求項1から11のいずれか一項に記載の情報処理装置。
  13. 前記決定部が決定した読みを前記対象テキストに割り当てたテキストコーパスを出力するコーパス出力部と、
    前記コーパス出力部が出力した前記テキストコーパスを用いて、入力音声を認識してテキストを出力する音声認識用の言語モデルを学習する学習部と、
    を更に備える請求項1から12のいずれか一項に記載の情報処理装置。
  14. 対象テキストに読みを付与する情報処理方法であって、
    音声データを取得する取得段階と、
    前記音声データを音声認識して、前記音声データの読みの統計データとして音声のユニグラムデータおよび音声のn−グラムデータを含む第1統計モデルを生成する生成段階と、
    前記対象テキストを解析して、前記第1統計モデルの少なくとも前記音声のユニグラムデータに基づいて前記対象テキストの読みの候補を予測し、前記音声のユニグラムデータおよび前記音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて前記対象テキストの読みの候補を減じる、予測段階と、
    前記第1統計モデルの少なくとも前記音声のn−グラムデータおよび前記予測段階において数が減じられた前記対象テキストの読みの候補に基づいて、前記対象テキストに付与する読みを決定する決定段階と、
    を備える情報処理方法。
  15. コンピュータに、請求項1から13のいずれか一項に記載の情報処理装置として機能させるプログラム。
JP2013233890A 2013-11-12 2013-11-12 情報処理装置、情報処理方法、およびプログラム Active JP6493866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013233890A JP6493866B2 (ja) 2013-11-12 2013-11-12 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013233890A JP6493866B2 (ja) 2013-11-12 2013-11-12 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015094848A JP2015094848A (ja) 2015-05-18
JP6493866B2 true JP6493866B2 (ja) 2019-04-03

Family

ID=53197286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013233890A Active JP6493866B2 (ja) 2013-11-12 2013-11-12 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6493866B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210397439A1 (en) * 2019-09-03 2021-12-23 Microsoft Technology Licensing, Llc Automatic probabilistic upgrade of tenant devices

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612091A (ja) * 1992-06-29 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> 日本語音声認識方法
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
JP3953772B2 (ja) * 2001-10-19 2007-08-08 日本放送協会 読みがな付与装置およびプログラム
JP2006139185A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4129989B2 (ja) * 2006-08-21 2008-08-06 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト音声合成を支援するシステム
JP2013175067A (ja) * 2012-02-27 2013-09-05 Hiroshima City Univ 自動読み付与装置及び自動読み付与方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210397439A1 (en) * 2019-09-03 2021-12-23 Microsoft Technology Licensing, Llc Automatic probabilistic upgrade of tenant devices
US11947947B2 (en) * 2019-09-03 2024-04-02 Microsoft Technology Licensing, Llc. Automatic probabilistic upgrade of tenant devices

Also Published As

Publication number Publication date
JP2015094848A (ja) 2015-05-18

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US7904291B2 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP5377889B2 (ja) 言語処理装置およびプログラム
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JPH0320800A (ja) 音声認識方法および装置
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2014232268A (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2005092682A (ja) 翻字装置、及び翻字プログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5302784B2 (ja) 機械翻訳方法、及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20180808

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180809

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20190207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190226

R150 Certificate of patent or registration of utility model

Ref document number: 6493866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150