JP2011033874A - 多言語音声認識装置及び多言語音声認識辞書作成方法 - Google Patents

多言語音声認識装置及び多言語音声認識辞書作成方法 Download PDF

Info

Publication number
JP2011033874A
JP2011033874A JP2009180687A JP2009180687A JP2011033874A JP 2011033874 A JP2011033874 A JP 2011033874A JP 2009180687 A JP2009180687 A JP 2009180687A JP 2009180687 A JP2009180687 A JP 2009180687A JP 2011033874 A JP2011033874 A JP 2011033874A
Authority
JP
Japan
Prior art keywords
reading data
language
text
speech recognition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009180687A
Other languages
English (en)
Inventor
Shuichi Matsumoto
修一 松本
Toru Masumoto
徹 枡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009180687A priority Critical patent/JP2011033874A/ja
Publication of JP2011033874A publication Critical patent/JP2011033874A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の対象言語が一つに設定されていても、テキスト本来の読みで認識することが可能な「多言語音声認識装置及び多言語音声認識辞書作成方法」を提供すること。
【解決手段】音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置は、外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、テキストが格納される記憶手段と、テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、テキストの名称データの読みデータが格納された音声認識辞書と、制御手段とを有する。制御手段は、取得した名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを設定言語に合わせた読みデータに変換して音声認識辞書に登録する。
【選択図】図2

Description

本発明は、多言語音声認識装置及び多言語音声認識辞書作成方法に関し、特に、言語種別に応じた複数の読み方があるテキストに対して、本来の読み方を認識することが可能な多言語音声認識装置及び多言語音声認識辞書作成方法に関する。
近年、携帯電話機やデジタルオーディオ機器などの外部機器を車載装置に接続して、外部機器に格納されている各種情報を利用することが行われている。
例えば、外部機器がデジタルオーディオ機器の場合は、デジタルオーディオ機器から取得したオーディオ情報を基に音楽が再生出力されている。このようなオーディオ情報として楽曲のデジタルデータだけではなく、楽曲のタイトルやアーティスト等の情報があり、楽曲のタイトルやアーティスト名などを音声入力して、その楽曲を再生することもできるようになっている。また、携帯電話機の場合は、携帯電話機に登録されている電話帳データを取得し、その電話帳データを基に通話先を音声入力して、ハンズフリーで電話をかけることができるようになってきている。
このように、電話帳から取得した名称データを、文字列から読み(発音)記号に変換して、電話帳用の音声認識用辞書を生成し、電話帳に登録されている名称を認識する音声操作が実現されている。
これに関連する技術として、特許文献1には、携帯電話機から無線電波を介して入力する電話番号と所定の音素列とを対応付けた音声認識辞書を作成し、使用者の音声入力を音素列に変換して、変換された音素列と関連付けされて音声認識辞書に登録された電話番号に対して発信する技術が記載されている。
このような音声認識装置における認識対象の文字には、特定の一つの言語種別の文字だけではなく、複数の言語種別の文字が含まれている場合もある。そのため、特定の言語種別の音声認識だけではなく、複数の言語種別に対する多言語音声の認識をする方法が検討されている。
このような多言語音声の認識に関連する技術として、特許文献2では、入力音声から抽出された特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて多言語化された認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果とする技術が記載されている。
また、特許文献3では、多言語による名称の音声認識において、名称に対する少なくとも一つの言語を特定し、言語に特定的な文字/音変換器を用いて、名称を一連の発音ユニットに変換して公開語彙辞書に記憶する技術が記載されている。
特開2006−014216号公報 特開2004−101727号公報 特開2006−048058号公報
上述したように、外部機器やオーディオ機器に格納されている情報には複数の種別の言語で記述された文字が含まれている可能性がある。このような情報を音声認識可能にするためには、それらの読み情報が必要となり、外部機器等が接続された車載機器側で音声認識のための認識辞書を生成している。
しかし、車載機器の音声認識装置では、認識対象となる言語が一言語だけ設定されるようになっている。しかも、外部機器に格納されている文字データが、本来どの言語種別の文字なのかが分からないにもかかわらず、設定された言語での読みデータを生成するため、本来の意図した読みとは異なる読みで認識辞書が生成されることになる。
例えば、ドイツ語が設定言語の音声認識装置を使用する場合、電話帳データにイタリア人の名称が含まれているとき、本来の読みはイタリア語的になるのが通常であるが、生成される認識辞書にはドイツ語的発音データが登録される。その結果、本来のイタリア語的発音で音声入力されたとしても、その発音を認識することができない。
なお、特許文献2に記載された多言語音声認識装置では、各言語に応じた発音辞書を言語の数だけ用意する必要がある。また、特許文献3に記載された多言語音声認識方法では、文字に複数の言語が含まれている場合、各言語に応じた発音データに変換して語彙辞書に格納し、その文字が音声入力されたときには、各言語に応じた音響モデルを用いて音声認識をしている。従って、音声認識の対象となる言語が一つであって、音響モデルがその言語に特定されている場合には、多言語の音声入力を認識することができない。
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識の対象となる言語が一つに設定されていても、テキスト本来の読みで認識することが可能な多言語音声認識装置及び多言語音声認識辞書作成方法を提供することを目的とする。
上述した従来技術の課題を解決するため、本発明の基本形態によれば、音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置であって、外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、前記テキストが格納される記憶手段と、前記テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、前記テキストの名称データの読みデータが格納された音声認識辞書と、前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、を有し、前記制御手段は、取得した前記テキストの名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを前記設定言語に合わせた読みデータに変換して前記音声認識辞書に登録することを特徴とする多言語音声認識装置が提供される。
この形態に係る多言語音声認識装置において、前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定し、当該特定された言語種別に応じたテキスト−読みデータ変換手段により前記読みデータを生成するようにしてもよく、前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定できないとき、保有するすべての言語種別に対するテキスト−読みデータ変換手段により前記読みデータを生成するようにしてもよく、さらに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを備え、前記制御手段は、前記設定言語のテキスト−読みデータ変換手段以外のテキスト−読みデータ変換手段を用いて前記読みデータを生成したとき、当該読みデータから前記マッピングテーブルを参照して前記設定言語に合わせた読みデータに変換するようにしてもよい。
また、本発明の他の形態によれば、外部機器又は媒体から音声認識の対象となるテキストを取得するステップと、前記取得されたテキストの名称データの言語種別を判定するステップと、前記言語種別に応じたテキスト−読みデータ変換手段により、読みデータを生成するステップと、前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップと、前記変換された読みデータを基に、前記設定言語での音声認識辞書を生成するステップと、を有することを特徴とする多言語音声認識辞書作成方法が提供される。
この形態に係る多言語音声認識辞書作成方法において、前記読みデータを生成するステップは、前記取得されたテキストの名称データの文字コードを導出するステップと、当該文字コードから言語種別を特定するステップと、当該特定された言語種別に応じたテキスト−読みデータ変換手段により読みデータを生成するステップと、を含むようにしてもよく、前記読みデータを生成するステップは、前記取得されたテキストの名称データの文字コードを導出するステップと、当該文字コードから言語種別を特定することができないとき、搭載されているすべてのテキスト−読みデータ変換手段により読みデータを生成するステップと、を含むようにしてもよく、前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップでは、前記使用したテキスト−読みデータ生成手段が設定言語用でないときに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを参照して前記生成された読みデータを前記設定言語に合わせた読みデータに変換するようにしてもよい。
本発明の多言語音声認識装置及び多言語音声認識辞書作成方法によれば、外部機器から入力された音声認識の対象となるテキストの文字列データがどの言語に属するかを検出し特定している。特定された言語に対するG2P(Grapheme to Phoneme)のようなテキストから読みデータに変換する手段により文字列データに対する読みデータを生成している。また、言語種別が特定できない場合には多言語音声認識装置が保有するすべての言語に対するG2Pを使用して読みデータを生成するようにしている。そして、変換された読みデータを基に設定言語に合わせて読みデータ変換(マッピング)して音声認識辞書を作成している。
このように、音声認識辞書には一つの文字列(テキスト)に対して多言語に対応した読みデータから生成される認識用のデータが登録されることになる。これにより、言語種別に依存せず、人名や楽曲名の本来の読み方によりそれらの名称を認識することが可能になる。
図1は、本発明の一実施形態に係る多言語音声認識装置の構成を示すブロック図である。 多言語音声認識辞書作成処理の一例を示すフローチャートである。 図1の多言語音声認識装置を使用して、携帯電話機に格納された電話帳データから読みデータを生成した一例を示す図である。 多言語発音データから設定言語へのマッピング処理の概要を説明する図である。 多言語発音データから設定言語へのマッピングの一例を示す図(その1)である。 音声認識辞書の一例を示す図である。 図1の多言語音声認識装置を使用して、外部機器に格納された音楽情報から読みデータを生成した一例を示す図(その1)である。 多言語発音データから設定言語へのマッピングの一例を示す図(その2)である。 図1の多言語音声認識装置を使用して、外部機器に格納された音楽情報から読みデータを生成した一例を示す図(その2)である。 多言語発音データから設定言語へのマッピングの一例を示す図(その3)である。
以下、本発明の実施形態について、添付の図面を参照して説明する。
図1は、本発明の一実施形態に係る多言語音声認識装置100の構成を示した図である。
本実施形態に係る多言語音声認識装置100は、図1に示すように、無線通信部11と、HMI(操作部)13と、CPU(制御部)12と、A/D変換部14a及びマイク14bで構成される音声入力部14と、D/A変換部15a及びスピーカー15bで構成される音声出力部15と、RAM(Random Access Memory)16と、ROM(Read Only Memory)17と、音声認識辞書22及びマッピングテーブル23を保有する記憶部21とを備えている。
無線通信部11は、CPU12の制御に基づいて携帯電話機200との間で無線通信を行い、携帯電話機200の記憶部(不図示)に格納されている住所録等が含まれた電話帳データを入力する。
HMI13は、外部機器との入出力インタフェースであり、データが格納されている媒体を接続するスロットなどが設けられている。
RAM16は、半導体メモリ等で構成され、無線通信部11から入力した電話帳データが格納される。
音声入力部14では、マイク14bを通して入力した音声を、A/D変換部14aでアナログ信号からデジタル信号に変換する。変換されたデジタル信号は音声データとしてCPU12から音声認識部、及び無線通信部11から無線通信により携帯電話機200に送信される。
音声出力部15では、携帯電話機200から無線通信により無線通信部11で受信したデジタル信号の音声データを、D/A変換部15aを通してアナログ信号に変換し、スピーカー15bから音声出力として出力する。
ROM17は、音声認識辞書作成及び音声認識に係る各種プログラムが格納され、G2P処理部18、音声認識部19及びマッピング処理部20を含んでいる。
G2P処理部18は、入力されたテキスト(文字列)データに対して読みデータを生成するG2Pを含んでいる。このG2P(Grapheme to Phoneme)は各種言語に応じて用意されている。
G2P処理部18は、テキスト解析部と読みデータ生成部で構成されている。また、G2P処理部18には、音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部で解析されたテキスト情報をその対応する音声データに変換する際に参照する辞書である。
テキスト解析部では、テキスト(文字列)が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部において、読みとアクセントを記した文字列である中間言語(読みデータ)を生成する。
マッピング処理部20は、G2P処理部18によって生成された読みデータを基に、後述するマッピングテーブルを参照して所定の設定言語における読みデータに変換する処理を行う。
CPU12では、無線制御部11を介して入力された携帯電話機200に記録されている情報から、音声認識辞書22の登録語彙の対象となるテキストを抽出してRAM16に格納する。
また、CPU12は、マッピング処理部20の読みデータ生成部で生成された読みデータをDB化して、音声認識辞書22に格納する。
音声認識辞書22は、ハードディスクや半導体メモリ等で構成され、音声認識部19で使用する音声認識辞書が格納されている。
音声認識部19では、ユーザの発話した音声の認識処理を、音声認識辞書22を利用した周知の方法によって行う。すなわち、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルとを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。
このように構成された多言語音声認識装置100に、携帯電話機200が無線通信で接続されると、音声認識辞書の対象となるテキストを抽出して、多言語音声認識辞書を作成する。その際に、入力されたテキストがある言語種別に特定できれば、その言語に対応したG2Pを使用してテキストから読みデータを生成する。また、入力されたテキストがある言語種別に特定できなければ、装置が搭載しているすべての言語に対するG2Pを使用して、すべての言語に応じた読みデータを生成する。これらの読みデータを基にして、一つのテキストに対して複数の言語に対応した音声認識を行うことを可能にしている。
以下に、図2から図5を参照して、多言語音声認識装置100において行われる、多言語音声認識辞書作成処理について説明する。図2は、多言語音声認識辞書作成処理の一例を示すフローチャートである。本フローチャートは、携帯電話機200に格納されている電話帳データ内に存在するテキストから音声認識辞書を作成する場合を例としている。また、図3は、電話帳データに対応した音声認識辞書の一例であり、図4及び図5は多言語音声認識辞書の作成における読みデータ生成の処理を説明する図である。
なお、本多言語音声認識辞書作成処理において、装置に設定された設定言語は米国英語(US English)であるものとする。
まず、図2のステップS11において、多言語音声認識装置100に接続された携帯電話機200内の電話帳にある名称データを取得する。
次のステップS12において、電話帳名称データの差分をチェックする。電話帳データの名称に新たな名称が含まれていないなど、差分がないときは、新たに音声認識用の辞書を作成する必要はないため、本処理を終了する。電話帳データに差分があるときは、ステップS13に移行する。電話帳には、相手先の名称、電話番号、住所等が登録されているが、電話帳名称データの差分チェックにおいては、相手先の名称と電話番号を比較の対象とする。
次のステップS13において、差分のある名称データの数と同数繰り返されるループが開始する。
次のステップS14において、名称データの言語チェックを行い、名称データが一つの言語種別に特定できた場合はステップS15に移行し、言語種別が特定できないときは、ステップS16に移行する。名称データの言語チェックは、名称データの文字コードを判別することにより行う。例えば、ロシア語特有の文字が含まれていれば、その名称データはロシア語であると判定し、言語種別が1言語に特定できたとする。
一方、ウムラウトがあればドイツ語又はスウェーデン語の可能性があるとし、1言語に特定できないとする。また、このような言語を特定可能な特殊文字が存在しない場合にも言語種別が1言語に特定できないとする。
次のステップS15において、ステップS14において特定された一つの言語に対応するG2Pにより、入力された名称に対する読みデータを生成する。
一方、ステップS14において一つの言語に特定されなかったときは、ステップS16において、可能性のある言語種別のG2Pにより入力された名称に対する読みデータを生成する。例えば、上記のようにドイツ語及びスウェーデン語の可能性があれば、これらの言語のG2Pを使用して読みデータを生成する。また、可能性のある言語を特定できなければ、装置に搭載されているすべての言語に対するG2Pを使用して読みデータを生成する。
次のステップS17において、所定の設定言語に合わせた読みデータに変換する。ステップS15において、例えば言語種別がドイツ語である場合にはドイツ語に対応した読みデータが生成される。この読みデータに対して、後述するマッピングテーブルを参照して、設定言語としての米国英語(US English)の読みデータに変換する。
次のステップS18は、前記ループの終端となり、未処理の名称データが残存しない場合にはステップS19に移行し、存在する場合にはステップS13に戻って次の名称データについて前述した処理を繰り返す。
次のステップS19において、ステップS13からステップS18の処理によって生成された読みデータを基に、電話帳用の音声認識辞書を生成し、本処理を終了する。
図3は、上記処理によって多言語に対応可能な辞書を作成した一例を示している。図3(a)に示すように、携帯電話機200を多言語音声認識装置100に接続したものとする。図3(b)は、携帯電話機200の電話帳に登録されている氏名を示している。登録されている氏名のうち、例えば、“Martin Margiela”はフランス人であり、その読みは、フランス語読みで、“マルタン マルジェラ”である。しかし、多言語音声認識装置100の設定言語が米国英語であり、米国英語用のG2Pだけが搭載されている場合には、読みデータとして、“マーティン マージエラ”となってしまい、ユーザが“マルタン マルジェラ”と発話しても認識されないことになる。
本実施形態では、この“Martin Margiela”に対して、テキスト解析を行い、特定の言語種別に該当するか否かを判定している。すなわち、ロシア語特有の文字やウムラウトなどの特殊な文字が含まれているか否かを文字コードによって判定する。この場合は、特定の言語種別に該当していないため、多言語音声認識装置100に搭載されているすべてのG2Pを用いて、それぞれの言語に対応した読みデータを生成している。図3(c)は、その結果の一例を示している。例えば、“Martin Margiela”に対して、米国英語、ドイツ語、フランス語、スウェーデン語、イタリア語に応じた読みデータを生成している。
図3(c)に示すような多言語音声認識装置100の設定言語に対する音声認識辞書を作成するために、生成された読みデータは、設定言語(米国英語)の発音記号へマッピングする。
図4は、このマッピング処理の概要を説明する図である。言語Aの発音データに対して、設定言語である言語Bの発音データへの変換は、それぞれの言語の発音データの対応関係が定義されたマッピングテーブルを参照して行われる。例えば、フランス語の“Ru”は米国英語では“rU”に対応し、フランス語の“ta”は米国英語の“tA”に対応し、フランス語の“JeRA”は米国英語の“dZerA”に対応する、というような発音記号の対応関係を定義しておく。
図5は、マッピングテーブルを参照して各言語の読み(発音)データを米国英語の読みデータに変換(マッピング)した例を示している。例えば、フランス語の“マルタン マルジェラ”の読み(発音)データは“mARutaN mARuJeRA”であり、変換された米国英語の読み(発音)データは、“mArUtAN mArUdZerA”となる。
図5に示したような変換された発音記号をもとに、設定言語(米国英語)での音声認識辞書を生成する。
生成された音声認識辞書は、各携帯電話機毎に登録されている氏名(名称)とその氏名に対する可能性のある読み(発音)データとを関連付けて保存される。図6はその一例を示している。図6に示すように、ID番号がXの携帯電話機において、氏名(A)に対して可能性のある読みが4種類(読みデータA1〜読みデータA4)あり、氏名(A)と関連付けて保存される。また、氏名(B)に対して可能性のある読みが2種類(読みデータB1,読みデータB2)あり、氏名(B)と関連付けて保存される。
以上説明したように、本実施形態の多言語音声認識装置及び多言語音声認識辞書作成方法によれば、外部機器(携帯電話機)から入力された音声認識の対象となるテキストの文字列データがどの言語に属するかを検出し特定している。特定された言語に対するG2Pのようなテキストから読みデータに変換する手段により文字列データに対する読みデータを生成している。また、言語種別が特定できない場合には搭載されているすべての言語に対するG2Pを使用して読みデータを生成するようにしている。そして、変換された読みデータを基にして音声認識辞書を作成している。
このように、音声認識辞書には一つの文字列(テキスト)に対して多言語に対応した読みデータから生成される認識用のデータが登録されることになる。これにより、多言語音声認識装置100に設定された言語種別に依存せず、本来の読み方で人名を認識することが可能になる。
(変形例)
上記実施形態では、多言語音声認識装置100に携帯電話機200を接続した場合を例にとって多言語音声認識用の辞書作成について説明した。外部機器としては携帯電話着に限らず、デジタルオーディオ機器やCD、DVD等の媒体を多言語音声認識装置100に接続するようにしてもよい。
デジタルオーディオ機器としては、例えば、iPod(登録商標:アップル・コンピュータ社製のデジタル音楽プレーヤー)や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
デジタルオーディオ機器には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名など)が含まれている。
これらのデジタルオーディオ機器や媒体は、HMI13に接続される。CPU12では、HMI13を介して入力された外部機器に記録されている情報から、音声認識辞書22の登録語彙の対象となるテキストを抽出してRAM16に格納する。例えば、CDが入力媒体の場合、楽曲データからCDDBを参照して、タイトルやアーティストや作曲者などの情報を抽出してRAM16に格納する。
図7及び図8は、外部機器としてデジタルオーディオ機器を接続した際に、楽曲情報に含まれる情報に対して多言語用の読みデータを生成した例を示している。
図7は、楽曲情報のうちのアーティスト名の読みデータの生成の一例を示している。図7(a)に示すように、多言語音声認識装置100にデジタルオーディオ機器やUSBメモリが接続されたものとする。図7(b)は、外部デジタルオーディオ機器に格納されている楽曲情報のうちのアーティスト名を示している。アーティスト名のうち、例えば“Johann Sebastian Bach”は、ドイツ語読みでは、“ヨハン・セバスチャン・バッハ”であるが、米国英語読みでは、“ヨーハン・セバスチャン・バーック”と読まれる。
図7(c)は、複数言語のG2Pによって生成された読みデータを示した図である。この図7(c)に示すように、各言語に対応した読みが生成されている。
図8は、図7(c)のように生成された各言語の読み(発音)データを米国英語の発音記号へマッピングした例を示している。図4、図5で説明したように、変換相互の言語に対する発音記号のマッピングテーブルを参照して、設定言語の発音記号に変換される。例えば、ドイツ語読みの“ヨハン・セバスチャン・バッハ”は、そのドイツ語の発音記号が“jOhANZebasUChaNBaha”であり、変換された米国英語の発音記号は“jO:hAN SeVasUChaNBA:kU”となる。変換された発音記号をもとに、設定言語での音声認識辞書を生成する。
図9及び図10は、外部機器としてデジタルオーディオ機器を接続した際に、楽曲情報に含まれる情報に対して多言語用の読みデータを生成した別の一例を示している。
図9は、楽曲情報のうちの楽曲名の読みデータの生成の一例を示している。図9(a)に示すように、多言語音声認識装置100にデジタルオーディオ機器やUSBメモリが接続されたものとする。図9(b)は、外部デジタルオーディオ機器に格納されている楽曲情報のうちの楽曲名を示している。楽曲名のうち、例えば“ANGEL”は、ドイツ語読みでは、“アングレ”であるが、米国英語読みでは、“エンジェル”と読まれる。
図9(c)は、複数言語のG2Pによって生成された読みデータを示した図である。この図9(c)に示すように、各言語に対応した読みが生成されている。
図10は、図9(c)のように生成された各言語の読み(発音)データを米国英語の発音記号へマッピングした例を示している。図4、図5で説明したように、変換相互の言語に対する発音記号のマッピングテーブルを参照して、設定言語の発音記号に変換される。例えば、ドイツ語読みの“アングレ”は、そのドイツ語の発音記号が“aNgUre”であり、変換された米国英語の発音記号は“aENZerU”となる。変換された発音記号をもとに、設定言語での音声認識辞書を生成する。
以上説明したように、オーディオ機器から取得した楽曲情報(楽曲名やアーティスト名等)の場合も、電話帳に登録された人名の場合と同様に、言語種別に応じた複数の読み方があるとき、可能性のある読みデータをテキストデータから生成するようにしている。そして、多言語音声認識装置に設定された言語に応じた読みデータを生成して、音声認識辞書を作成するようにしている。これにより、多言語音声認識装置に設定された言語種別に依存せず、本来の読み方で楽曲名等を認識することが可能となる。
100…多言語音声認識装置、
200…携帯電話機、
11…無線通信部(入力手段)、
12…CPU(制御手段)、
13…HMI(入力手段)、
14…音声入力部、
15…音声出力部、
16…RAM(記憶手段)、
18…G2P処理部(テキスト−読みデータ変換手段)、
19…音声認識部、
20…マッピング処理部、
22…音声認識辞書、
23…マッピングテーブル。

Claims (10)

  1. 音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置であって、
    外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、
    前記テキストが格納される記憶手段と、
    前記テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、
    前記テキストの名称データの読みデータが格納された音声認識辞書と、
    前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、
    を有し、
    前記制御手段は、取得した前記テキストの名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを前記設定言語に合わせた読みデータに変換して前記音声認識辞書に登録することを特徴とする多言語音声認識装置。
  2. 前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定し、当該特定された言語種別に応じたテキスト−読みデータ変換手段により前記読みデータを生成することを特徴とする請求項1に記載の多言語音声認識装置。
  3. 前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定できないとき、保有するすべての言語種別に対するテキスト−読みデータ変換手段により前記読みデータを生成することを特徴とする請求項2に記載の多言語音声認識装置。
  4. さらに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを備え、
    前記制御手段は、前記設定言語のテキスト−読みデータ変換手段以外のテキスト−読みデータ変換手段を用いて前記読みデータを生成したとき、当該読みデータから前記マッピングテーブルを参照して前記設定言語に合わせた読みデータに変換することを特徴とする請求項3に記載の多言語音声認識装置。
  5. 前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、CD又はDVDであることを特徴とする請求項1に記載の音声認識辞書作成装置。
  6. 外部機器又は媒体から音声認識の対象となるテキストを取得するステップと、
    前記取得されたテキストの名称データの言語種別を判定するステップと、
    前記言語種別に応じたテキスト−読みデータ変換手段により、読みデータを生成するステップと、
    前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップと、
    前記変換された読みデータを基に、前記設定言語での音声認識辞書を生成するステップと、
    を有することを特徴とする多言語音声認識辞書作成方法。
  7. 前記読みデータを生成するステップは、
    前記取得されたテキストの名称データの文字コードを導出するステップと、
    当該文字コードから言語種別を特定するステップと、
    当該特定された言語種別に応じたテキスト−読みデータ変換手段により読みデータを生成するステップと、
    を含むことを特徴とする請求項6に記載の多言語音声認識辞書作成方法。
  8. 前記読みデータを生成するステップは、
    前記取得されたテキストの名称データの文字コードを導出するステップと、
    当該文字コードから言語種別を特定することができないとき、保有するすべてのテキスト−読みデータ変換手段により読みデータを生成するステップと、
    を含むことを特徴とする請求項6に記載の多言語音声認識辞書作成方法。
  9. 前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップでは、
    前記使用したテキスト−読みデータ生成手段が設定言語用でないときに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを参照して前記生成された読みデータを前記設定言語に合わせた読みデータに変換することを特徴とする請求項6に記載の多言語音声認識辞書作成方法。
  10. 前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、CD又はDVDであることを特徴とする請求項6に記載の多言語音声認識辞書作成方法。
JP2009180687A 2009-08-03 2009-08-03 多言語音声認識装置及び多言語音声認識辞書作成方法 Pending JP2011033874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009180687A JP2011033874A (ja) 2009-08-03 2009-08-03 多言語音声認識装置及び多言語音声認識辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009180687A JP2011033874A (ja) 2009-08-03 2009-08-03 多言語音声認識装置及び多言語音声認識辞書作成方法

Publications (1)

Publication Number Publication Date
JP2011033874A true JP2011033874A (ja) 2011-02-17

Family

ID=43762999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009180687A Pending JP2011033874A (ja) 2009-08-03 2009-08-03 多言語音声認識装置及び多言語音声認識辞書作成方法

Country Status (1)

Country Link
JP (1) JP2011033874A (ja)

Cited By (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016088241A1 (ja) * 2014-12-05 2016-06-09 三菱電機株式会社 音声処理システム及び音声処理方法
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
JP2017062475A (ja) * 2012-03-02 2017-03-30 アップル インコーポレイテッド 名前発音システム及び方法
JP2017521724A (ja) * 2014-07-24 2017-08-03 ハーマン インターナショナル インダストリーズ インコーポレイテッド 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
WO2019049364A1 (ja) * 2017-09-11 2019-03-14 三菱電機株式会社 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
CN110827810A (zh) * 2013-07-04 2020-02-21 三星电子株式会社 用于识别语音和文本的设备和方法
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
US20020152068A1 (en) * 2000-09-29 2002-10-17 International Business Machines Corporation New language context dependent data labeling
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2006048058A (ja) * 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2007155833A (ja) * 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
JP2007538278A (ja) * 2004-05-21 2007-12-27 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 音声認識システム
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
US20020152068A1 (en) * 2000-09-29 2002-10-17 International Business Machines Corporation New language context dependent data labeling
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2007538278A (ja) * 2004-05-21 2007-12-27 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 音声認識システム
JP2006048058A (ja) * 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2007155833A (ja) * 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations

Cited By (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
JP2017062475A (ja) * 2012-03-02 2017-03-30 アップル インコーポレイテッド 名前発音システム及び方法
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
CN110827810A (zh) * 2013-07-04 2020-02-21 三星电子株式会社 用于识别语音和文本的设备和方法
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
JP2017521724A (ja) * 2014-07-24 2017-08-03 ハーマン インターナショナル インダストリーズ インコーポレイテッド 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
WO2016088241A1 (ja) * 2014-12-05 2016-06-09 三菱電機株式会社 音声処理システム及び音声処理方法
JPWO2016103358A1 (ja) * 2014-12-24 2017-05-25 三菱電機株式会社 音声認識装置及び音声認識方法
US10403265B2 (en) 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
JP6109451B2 (ja) * 2014-12-24 2017-04-05 三菱電機株式会社 音声認識装置及び音声認識方法
CN107112007A (zh) * 2014-12-24 2017-08-29 三菱电机株式会社 语音识别装置及语音识别方法
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
WO2019049364A1 (ja) * 2017-09-11 2019-03-14 三菱電機株式会社 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction

Similar Documents

Publication Publication Date Title
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
US8719028B2 (en) Information processing apparatus and text-to-speech method
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20130090921A1 (en) Pronunciation learning from user correction
TWI244638B (en) Method and apparatus for constructing Chinese new words by the input voice
JP2009505321A (ja) 再生装置の動作を制御する方法およびシステム
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN104899192B (zh) 用于自动通译的设备和方法
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
WK LO et al. Development of Cantonese spoken language corpora for speech applications
JP2004294577A (ja) 文字情報音声変換方法
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
KR102574311B1 (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
TWI405184B (zh) 嵌入式作業系統平台之隨讀隨聽電子書手持裝置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140107