JP2020509397A - 音声における記号シーケンスの推定 - Google Patents

音声における記号シーケンスの推定 Download PDF

Info

Publication number
JP2020509397A
JP2020509397A JP2019529583A JP2019529583A JP2020509397A JP 2020509397 A JP2020509397 A JP 2020509397A JP 2019529583 A JP2019529583 A JP 2019529583A JP 2019529583 A JP2019529583 A JP 2019529583A JP 2020509397 A JP2020509397 A JP 2020509397A
Authority
JP
Japan
Prior art keywords
candidate
candidates
symbol sequence
relevant portion
repeat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019529583A
Other languages
English (en)
Other versions
JP6986287B2 (ja
Inventor
鈴木 雅之
雅之 鈴木
岳人 倉田
岳人 倉田
隆輝 立花
隆輝 立花
チャーチ、ケネス、ウォード
ラマバドラン、ブバーナ
セシー、アブヒナフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020509397A publication Critical patent/JP2020509397A/ja
Application granted granted Critical
Publication of JP6986287B2 publication Critical patent/JP6986287B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

【課題】 音声における記号シーケンスの推定のための方法、装置を提供する。【解決手段】 音声テキスト化データからターゲット記号シーケンスの1つ又は複数の候補を検出することと、音声テキスト化データから各候補の関連部分を抽出すること(S140)、対応する候補の関連部分内の、各候補の少なくとも部分的シーケンスの反復を検出すること(S150)、検出した反復に反復表示をラベル付けすること(S160)、及び候補の各々の反復表示を含む対応する関連部分を用いて、各候補がターゲット記号シーケンスであるかどうかを推定すること(S170)を含む、コンピュータにより実施される方法を用いて、記号シーケンスを推定する。【選択図】 図2

Description

本発明は、音声における記号シーケンスの推定に関する。
音声認識システムは、音声テキスト化(speech-to-text)と呼ばれるプロセスにおいて、記録された言葉による会話のような音声データからテキストを生成する。音声テキスト化データと呼ばれる、音声テキスト化プロセスから生成されるテキストを用いるためには、言葉による会話から記号シーケンスを検索することが重要である。既存の記号シーケンス検索技術は、特許文献1、特許文献2及び特許文献3に開示されている。しかしながら、音声テキスト化データにおいて、1つのタイプの記号シーケンス(例えば、電話番号)と他のタイプの記号シーケンス(例えば、顧客ID)を区別する上での困難が依然としてある。
米国特許公開番号第2008/0221882A1号明細書 米国特許公開番号第2014/0222419A1号明細書 米国特許公開番号第2011/0046953A1号明細書
Junyoung Chung、Caglar Gulcehre、KyungHyun Cho、Yoshua Bengio著、Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
音声における記号シーケンスの推定のための方法、装置を提供する。
本発明の第1の態様によると、音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することと、上記音声テキスト化データから各候補の関連部分を抽出することと、対応する候補の関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することと、検出した反復に反復表示をラベル付けすることと、候補の各々の反復表示を含む対応する関連部分を用いて、各候補がターゲット記号シーケンスであるかどうかを推定することとを含む、コンピュータにより実施される方法が提供される。第1の態様によると、この方法は、反復の表示を利用して、より少ない計算リソースによるターゲット記号シーケンスの正確な識別を可能にする。
本発明の第2の態様によると、随意的に、第1の態様の方法が提供され、そこで、音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することは、音声テキスト化データから、上記1以上の候補の各々を構成する2以上の記号シーケンスを抽出することであって、2以上の記号シーケンスは、音声テキスト化データにおいて互いに離れている、抽出することを含む。第2の態様によると、この方法は、音声テキスト化データにおける離れた位置からの候補の検出を可能にする。
本発明の第3の態様によると、随意的に、第2の態様の方法が提供され、そこで、対応する候補の関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することは、対応する候補の関連部分内に、対応する候補を構成する2以上の記号シーケンスの少なくとも1つを検出することを含む。第3の態様によると、この方法は、記号シーケンスに対応する反復の検出を可能にし、これにより、推定の精度を改善することができる。
本発明の第4の態様によると、随意的に、第2の態様の方法が提供され、そこで、2以上の記号シーケンスを抽出することは、所定数の記号シーケンスを抽出することによって実行され、上記2以上の記号シーケンスは重ならず、2以上の記号シーケンスの連結は候補の各々を形成する。第4の態様によると、この方法は、音声テキスト化データにおける遠隔位置からの候補の検出を可能にする。
本発明の第5の態様によると、随意的に、第1の態様の方法が提供され、そこで、上記候補の各々の関連部分は、該候補の各々に隣接する部分を含む。第5の態様によると、この方法は、記号シーケンスに対応する反復の検出を可能にし、これにより、推定の精度を改善することができる。
本発明の第6の態様によると、随意的に、第5の態様の方法が提供され、そこで、各々の対応する候補の反復表示に基づいて、各候補がターゲット記号シーケンスであるかどうかを推定することは、反復表示を有する各候補の関連部分を再帰ニューラル・ネットワーク(recurrent neural network)に入力することによって、各候補がターゲット記号シーケンスである確率を推定することを含む。第6の態様によると、この方法は、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にする。
本発明の第7の態様によると、随意的に、第6の態様の方法が提供され、そこで、各々の対応する候補の反復表示に基づいて、各候補がターゲット記号シーケンスであるかどうかを推定することは、候補の中で再帰ニューラル・ネットワークからどの候補が最も高い確率を出力するかを判断することをさらに含む。第7の態様によると、この方法は、より高い精度及びより少ない計算ソースによるターゲット記号シーケンスの検出を可能にする。
本発明の第8の態様によると、随意的に、第6の態様の方法が提供され、そこで、音声テキスト化データから各候補の関連部分を抽出することは、音声テキスト化データから候補の複数の関連部分を抽出することを含み、ラベル付けされた反復を有する候補の各々の関連部分を再帰ニューラル・ネットワークに入力することによって、各候補がターゲット記号シーケンスである確率を推定することは、ラベル付けされた反復を有する候補の各々の複数の関連部分の各々を、複数の再帰ニューラル・ネットワークの各々に入力することを含み、反復表示を有する候補の各々の複数の関連部分の各々は、候補の各々に対する複数の関連部分の各々の位置に応じた方向に、複数の再帰ニューラル・ネットワークに入力される。第8の態様によると、この方法は、音声テキスト化データにおける候補と関連部分との間の相対的位置を利用することにより、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にする。
本発明の第9の態様によると、候補についての確率が閾値を下回ると判断することに応答して、付加的な音声テキスト化データを要求することをさらに含む方法が、随意的に提供される。第9の態様によると、この方法は、既存の音声テキスト化データからの推定が十分に信頼できると考えられない場合、新しい音声テキスト化データからのターゲット記号シーケンスの別の推定を可能にする。
本発明の第10の態様によると、随意的に、第1の態様の方法が提供され、そこで、検出した反復に反復表示をラベル付けすることは、検出した反復を反復表示と置換することを含む。第10の態様によると、この方法は、不要な情報を削除することによって、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にすることができる。
本発明の第11の態様によると、随意的に、第1の態様の方法が提供され、そこで、検出した反復に反復表示をラベル付けすることは、検出した反復に、検出した反復の記号の長さの表示をラベル付けすることを含む。第11の態様によると、この方法は、反復の記号の長さの情報を利用することによって、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にする。
本発明の第12の態様によると、随意的に、第1の態様の方法が提供され、そこで、検出した反復に反復表示をラベル付けすることは、検出した反復に、各候補における検出した反復の位置の表示をラベル付けすることを含む。第12の態様によると、この方法は、反復の位置の情報を利用することによって、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にする。
本発明の第13の態様によると、随意的に、第1の態様の方法が提供され、そこで、候補の各々の関連部分から候補の各々の少なくとも部分的シーケンスに類似した類似部分を検出することと、検出した類似部分に、類似性を示す情報をラベル付けすることとをさらに含み、候補の各々の反復表示を含む対応する関連部分を用いて、各候補がターゲット記号シーケンスであるかどうかを推定することは、反復表示及び各候補の類似部分に基づいて、候補の各々がターゲット記号シーケンスであるかどうかを推定することを含む。第13の態様によると、この方法は、候補に類似した部分の情報を利用することによって、より高い精度及びより少ない計算リソースによるターゲット記号シーケンスの検出を可能にする。
上記の第1〜第13の態様は、説明した方法を実行する装置、及びコンピュータ又はプログラム可能回路を説明した方法を実行させるコンピュータ・プログラム製品を含むこともできる。概要の節は、必ずしも本発明の実施形態の全ての特徴を説明するものではない。本発明の実施形態は、上述した特徴の部分組み合わせを含むこともできる。
これら並びに他の特徴及び利点は、添付図面と併せて読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
以下の説明は、以下の図を参照して好ましい実施形態の詳細を提供する。
本発明の実施形態による、装置の例示的な構成を示す。 本発明の実施形態による、動作フローを示す。 本発明の実施形態による、候補を示す。 本発明の別の実施形態による、候補を示す。 本発明の実施形態による、関連部分を示す。 本発明の実施形態による、ラベル付けを示す。 本発明の別の実施形態による、ラベル付けを示す。 本発明の実施形態による、再帰ニューラル・ネットワーク(RNN)を示す。 本発明の実施形態による、長期短期メモリ(LSTM:Long Short-Term Memory)を示す。 本発明の実施形態による、推定モデルを示す。 本発明の実施形態による、第2の動作フローを示す。 本発明の実施形態による、システムとして機能するコンピュータの例示的なハードウェア構成を示す。
以下では、本発明の例示的な実施形態が説明される。例示的な実施形態は、特許請求の範囲に従った本発明を限定するものではなく、実施形態に説明される特徴の組み合わせは、必ずしも本発明にとって本質的なものではない。
図1は、本発明の実施形態による、装置10(例えば、コンピュータ、プログラム可能回路等)の例示的な構成を示す。装置10は、音声テキスト化データにおけるターゲット記号シーケンスを判断することができる。装置10により判断されるターゲット記号シーケンスは、電話番号とすることができる。
装置10は、プロセッサと、命令をまとめて含む1以上のコンピュータ可読媒体とを含むことができる。命令は、プロセッサ又はプログラム可能回路により実行されるとき、プロセッサ又はプログラム可能回路に、複数の動作セクションとして動作させることができる。それによって、装置10は、格納セクション100、取得セクション110、検出セクション130、抽出セクション140、検索セクション150、ラベル付けセクション160、推定セクション170、及び訓練セクション190として表すことができる。
格納セクション100は、装置10の動作に用いられる種々のデータを格納することができる。格納セクション100は、揮発性又は不揮発性メモリを含むことができる。装置10内の1以上の他の要素(例えば、取得セクション110、検出セクション130、抽出セクション140、検索セクション150、ラベル付けセクション160、推定セクション170、及び訓練セクション190等)は、直接又は格納セクション100を介して、必要なデータと通信することができる。
取得セクション110は、音声テキスト化データを取得することができる。取得セクション110は、各々の訓練データが、正しい記号シーケンスと対になった音声テキスト化データを含む1以上の訓練データを取得することができる。取得セクション110は、データベース20から音声テキスト化データ及び/又は訓練データを取得し、それらを格納セクション100に格納することができる。取得セクション110は、マイクロフォン、又は装置に接続された他の音声入力デバイスから、音声テキスト化データ及び/又は訓練データを取得することができる。音声テキスト化データ及び/又は訓練データは、キャプチャした人間の言葉、又は機械的に合成した人間の言葉とすることができる。
検出セクション130は、取得セクション110によって取得された音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することができる。検出セクション130は、音声テキスト化データから、候補の各々を構成する2以上の記号シーケンスを抽出することによって、1以上の候補の検出を実行することができる。2以上の記号シーケンスは、音声テキスト化データにおいて互いに離れている。
抽出セクション140は、音声テキスト化データから、検出セクション130によって検出された各候補の1以上の関連部分を抽出することができる。幾つかの実施形態において、関連部分は、音声テキスト化データにおいて各候補に隣接するテキストとすることができる。
検索セクション150は、抽出セクション140によって抽出された関連部分における反復を検索することができる。検索セクション150は、対応する候補の関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することができる。
ラベル付けセクション160は、検索セクション150によって検出された反復に、反復表示をラベル付けすることができる。
推定セクション170は、ラベル付けセクション160によってラベル付けされた候補の各々の反復表示を含む対応する関連部分を用いて、各候補がターゲット記号シーケンスであるかどうかを推定することができる。幾つかの実施形態において、推定セクション170は、再帰ニューラル・ネットワークのような推定モデルを用いて、各候補がターゲット記号シーケンスであるかどうかの可能性を推定することができる。
訓練セクション190は、推定セクション170による推定に用いられる推定モデルを訓練することができる。訓練セクション190は、取得セクション110によって取得された訓練データを用いて訓練を実行することができる。
図2は、本発明の実施形態による第1の動作フローを示す。本実施形態は、装置10のような装置が、図2に示されるようなS110〜S190の動作を実行する例を説明する。装置は、S110〜S190の動作を実行することによって、音声テキスト化データからターゲット記号シーケンスを推定することができる。
ターゲット記号シーケンスは、例えば、数、字、及び/又は他の文字を含む記号のシーケンスとすることができ、それだけで意味がないこともある。幾つかの実施形態において、ターゲット記号シーケンスは、電話番号、顧客ID、カード番号、人/人のグループの識別、製品/サービスの識別、及び物理アドレス/電子メール・アドレス等とすることができる。
S110において、取得セクション110のような取得セクションが、音声テキスト化データを取得することができる。他の実施形態において、取得セクション110は、音声テキスト化データのような、言葉による会話若しくはモノローグから転記されるテキスト・データ、又はテキスト・メッセージ(例えば、オンラインチャット)のテキスト・データを取得することができる。
S130において、検出セクション130のような検出セクションが、音声テキスト化データからターゲット記号シーケンスの1以上の候補(以下、「候補」と呼ぶことができる)を検出することができる。検出セクションは、ターゲット記号シーケンスと同数の記号を有する候補を検出することができる。ターゲット記号シーケンスが11個の記号シーケンスを有する(又は、11桁とみなされる)電話番号である場合、検出セクションは、音声テキスト化データから11個の記号シーケンスを有する1以上の候補を検出することができる。
検出セクションは、音声テキスト化データから、候補の各々を構成する2つ又は複数の記号シーケンスを抽出することができ、2以上の記号シーケンスは、音声テキスト化データにおいて互いに離れている。検出セクションは、音声テキスト化データから所定数の記号シーケンスを抽出する1以上のテンプレートを、音声テキスト化データに適用することができる。2以上の記号シーケンスの連結が候補の各々を形成する。
図3は、本発明の実施形態による候補を示す。図3の実施形態において、ターゲット記号シーケンスは、11桁の電話番号である。表に示される「候補」(例えば、08008012551、08008012513...)は、検出セクションにより検出されたターゲット記号シーケンスの候補を表す。検出セクションは、図3の上部に示されるような音声テキスト化データ「My phone number is...hmm 5131 right(私の電話番号は...そう 5131ですね)」から候補を検出する。
図3の実施形態において、検出セクションは、8桁のテンプレートと3桁のテンプレートを用いることによって、候補を検出する。図3の実施形態に関して、検出セクションは、8桁のテンプレートを用いて、音声テキスト化データから、8桁を有する全ての記号シーケンス(例えば、08008012、80080123...)を抽出することができる。検出セクションは、3桁のテンプレートを用いることにより、音声テキスト化データから、8桁の記号シーケンスが3桁の記号シーケンスと同時に重ならないように、3桁を有する全ての記号シーケンス(例えば、551、513...)を抽出することができる。例えば、「08008012」を検出すると、検出セクションは、3桁の記号シーケンスとして、音声テキスト化データから、「080」、「800」、...、「234」を検出することができない。記号シーケンス(例えば、08008012)及び(例えば、551)の連結は、候補(例えば、08008012551)を形成する。
検出セクションは、2以上の候補のような、音声テキスト化データにおける異なる部分から抽出される同じ記号シーケンスを検出することができる。図3の実施形態において、検出セクションは、第2の候補及び第4の候補に示されるような「08008012513」を検出する。例えば、検出セクションは、候補についての音声テキスト化データにおける同じ部分から「08008012」を検出するが、検出セクションは、音声テキスト化データにおける「...is 55131 hmm...(...は、55131 そう...)」から第2の候補の「513」を検出し、「...hmm 5131 right(...そう 5131ですね)」から第4の候補の「513」を検出する。
こうした場合、検出セクションは、異なる候補として「08008012513」の2つの候補を扱うことができる。代替的な実施形態において、検出セクションは、同じ記号シーケンスを有する複数の候補の一部を保持する一方で、他の候補を放棄することができる。
図4は、本発明の別の実施形態による候補を示す。図4の実施形態において、検出セクションは、3桁のテンプレートと、2つの4桁のテンプレートとを用いて、候補を検出する。図4の実施形態に関して、検出セクションは、3桁のテンプレートを用いて、音声テキスト化データから3桁(例えば、080、800、008...)を有する全ての記号シーケンスを抽出することができる。検出セクションは、第1の4桁のテンプレートを用いて、音声テキスト化データから4桁(例えば、0801、8012)を有する全ての記号シーケンスを抽出し、3桁の記号シーケンスがいずれの4桁の記号シーケンスとも同時に重ならないようにすることができる。また、検出セクションは、第2の4桁のテンプレートを用いて音声テキスト化データから4桁(例えば、5513、5131)を有する全ての記号シーケンスを抽出し、3桁の記号シーケンス及び第1の4桁のテンプレートにより抽出される4桁のシーケンスが、第2の4桁のテンプレートにより抽出されるいずれの4桁の記号シーケンスとも同時に重ならないようにすることもできる。
幾つかの実施形態において、検出セクションは、記号シーケンスを検出するためのテンプレートの全ての可能な組み合わせを用いることができる。例えば、検出セクションは、11桁の電話番号を有するターゲット記号のために、11桁のテンプレート、10&1桁のテンプレート、9&2桁のテンプレート、...、1&10桁のテンプレート、9&1&1桁のテンプレート、...、1&1&9桁のテンプレート、8&1&1&1桁のテンプレート、...、1&1&1&8桁のテンプレート、...、及び1&1&1&1&1&1&1&1&1&1&1桁のテンプレートを用いることができる。実施形態において、検出セクションは、装置のユーザにより予め定めることができる、記号シーケンスを検出するためのテンプレートの全ての可能な組み合わせの一部のみを用いることができる。
上記の実施形態に関連して説明されるように、検出セクションは、テンプレートにより抽出される2以上の記号シーケンスが重ならないように、検出を実行することができる。代替的な実施形態において、テンプレートにより抽出される2以上の記号シーケンスは重なることがある。
S140において、抽出セクション140のような抽出セクションは、音声テキスト化データから、S130において検出された各候補の関連部分を抽出することができる。候補の各々の関連部分は、候補を構成する2以上の記号シーケンスのいずれかに直接又は間接的に隣接する部分を含む。
実施形態において、抽出セクションは、音声テキスト化データから、候補の複数の関連部分を抽出することができる。抽出セクションは、S130において抽出した第1の記号シーケンスの先行部分(すなわち、左側の語)、S130において抽出した最後の記号シーケンスの後続部分(すなわち、右側の語)、及びS130において抽出した2つの隣接する記号の間にはさまれた部分(すなわち、中間の語)のうちの少なくとも1つを抽出することができる。
幾つかの実施形態において、抽出セクションは、音声テキスト化データからの関連部分として、指定された数の語(例えば、10語)又は文字(例えば、100文字)を抽出することができる。代替的な実施形態において、抽出セクションは、音声テキスト化の最初と第1の抽出した記号シーケンスとの間の全ての語、音声テキスト化の最後と最後の抽出した記号シーケンスとの間の全ての語、及び/又は関連部分のような2つの記号シーケンス間の全ての語を抽出することができる。
図5は、本発明の実施形態による関連部分を示す。図5は、図3の実施形態に従って検出された候補を示す。図5の実施形態において、抽出セクションは、第1の関連部分(「左側の語」として示される)として、音声テキスト化データにおける第1の記号シーケンス「08008012」に先行する「My phone number is(私の電話番号は)」を抽出した。抽出セクションは、第2の関連部分(「右側の語」として示される)として、音声テキスト化データにおける第2の記号シーケンス「551」に後続する「31 hmm 5131...(31 そう 5131...)」を抽出した。
S150において、検索セクション150のような検索セクションが、対応する候補の関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することができる。検索セクションは、対応する候補の関連部分内に、対応する候補を構成する2以上の記号シーケンスの少なくとも1つを、反復として検出することができる。幾つかの実施形態において、検出セクションは、検出した記号シーケンスに隣接する関連部分内の候補の一部として、S130において検出した記号シーケンスと同じである記号シーケンスを検出することができる。
代替的な実施形態において、検出セクションは、候補の関連部分の一部/全てにおける1つの候補の一部として、S130において検出した記号シーケンスと同じである記号シーケンスを検出することができる。さらに別の代替的な実施形態において、検出セクションは、1つの候補の全ての関連部分内の1つの候補のいずれかの部分と同じである記号シーケンスを検出することができる。検出セクションが候補についての反復を検出しない場合、装置は、候補に対してS160を実行することなく、S170の動作に進むことができる。
S160において、ラベル付けセクション160のようなラベル付けセクションが、S150において検出した反復に、反復表示をラベル付けすることができる。ラベル付けセクションは、検出した反復を反復表示と置き換えることによって、ラベル付けを実行することができる。
幾つかの実施形態において、ラベル付けセクションは、検出した反復に、検出した反復の記号の長さの表示をラベル付けすることができる。例えば、反復表示は、検出した反復の記号の数の情報を含むことができる。
他の実施形態において、ラベル付けセクションは、検出した反復に、対応する候補における検出した反復の位置の表示をラベル付けすることができる。例えば、反復表示は、関連部分が検出した反復を含む位置の情報(例えば、関連部分における最後の4桁に、検出した反復が存在するという情報)を含むことができる。
図6は、本発明の実施形態によるラベル付けを示す。図6は、図5の実施形態に従って検出された関連部分に与えられる反復表示を示す。図6の実施形態において、検索セクションは、図5の第2の候補の右側の語の下で、3桁の記号シーケンス「513」の反復を検出し、それに応答して、ラベル付けセクションは、反復「513」を反復表示「Rep(3)」と置換した。「Rep(3)」の「(3)」は、図6に示されるような反復内の記号の数を表す。検索セクションはまた、図5の第3の候補の右側の語の下に、3桁の記号シーケンス「131」の反復を検出し、ラベル付けセクションは、反復「131」を反復表示「Rep(3)」と置換する。
2以上の反復表示が候補又は関連部分内にあることに応答して、ラベル付けセクションは、検出した反復に、別個の反復表示をラベル付けすることができる。例えば、2つの「Rep(3)」表示があった場合、ラベル付けセクションは、第1の「Rep(3)」を「Rep(3)_1」とラベル付けし、第2の「Rep(3)」を「Rep(3)_2」とラベル付けすることができる。
図7は、本発明の別の実施形態によるラベル付けを示す。図7の実施形態において、関連部分は、図3に示される候補及び音声テキスト化データから抽出された左側の語、中間の語、及び右側の語を含むことができる。中間の語は、8桁のテンプレート及び3桁のテンプレートによりそれぞれ検出された8桁の記号シーケンスと3桁の記号シーケンスとの間にはさまれた部分とすることができる。実施形態において、第2及び第3の候補の右側の語の下の反復は、反復表示と置き換えられる。
図7の実施形態において、検索セクションは、中間の語(例えば、「34 oh...is(34 まあ...番号は)」)から、8桁の記号シーケンス(例えば「08008012」)及び3桁の記号シーケンス(例えば「551」)の両方の反復を検出することができる。ラベル付けセクションは、反復にラベル付けし、異なる記号シーケンス(3桁/8桁の記号シーケンス)の反復が区別可能であるようにすることができる。
S170において、推定セクション170のような推定セクションが、各候補がターゲット記号シーケンスであるかどうかを推定することができる。幾つかの実施形態において、推定セクションは、反復表示を有する各候補の関連部分を推定モデルに入力することによって、各候補がターゲット記号シーケンスである確率を計算することができる。推定セクションは、長期短期メモリ(LSTM)のような再帰ニューラル・ネットワークを推定モデルとして用いることができる。推定セクションは、種々のタイプのLSTM(例えば、Gers&Schmidhuber(2000年)、Cho他(2014年)、Koutnik他(2014年)、Yao他(2015年)、Greff他(2015年)、又はJozefowicz他(2015年)において開示されたLSTM)の少なくとも1つを採用することができる。推定セクションは、非特許文献1に開示されるように、あるタイプのLSTMとしてGRUを採用することができる。代替的な実施形態において、推定セクションは、別のタイプの再帰ニューラル・ネットワークを推定モデルとして採用することができる。
推定セクションは、反復表示を有する関連部分の全て又は少なくとも一部をLSTMに入力することができる。検索セクションが、S150において関連部分内にいずれの反復も検出しない場合、推定セクションは、いずれの反復表示も伴わない関連部分をLSTM内に入力することができる。
S170において、推定セクションは、複数の候補を、ターゲット記号シーケンスである可能性の昇順/降順で列挙し、装置のディスプレイ上に、候補のリスト及びその可能性を示すことができる。
装置は、S130において検出セクションが検出した複数の候補の各々について動作S140〜S170を実行することができる。装置が2以上のテンプレート(例えば、8&3桁のテンプレート及び4&4&3桁のテンプレート)を使用する場合、装置は、全てのテンプレートから検出した複数の候補の各々について動作S140〜S170を実行することができる。
これにより、推定セクションは、S130において検出した複数の候補の各々についてのターゲット記号シーケンスの可能性を計算することができる。
S190において、推定セクションは、複数の候補の中から1つの候補をターゲット記号シーケンスとして選択することができる。実施形態において、推定セクションは、複数の候補の中でどの候補が、再帰ニューラル・ネットワークから最も高い確率を出力するかを判断することができる。推定セクションは、最も高い確率を出力すると判断した候補をターゲット記号シーケンスとして選択することができる。
取得セクションは、推定セクションが各候補についての確率が閾値を下回ると判断することに応答して、付加的な音声テキスト化データを利用することができる。取得セクションは、複数の候補の最も高い確率が閾値を下回る場合、付加的な音声テキスト化データを利用することができる。取得セクションは、複数の候補の最も高い確率と複数の候補の2番目に高い確率との間の差が閾値を下回る場合、付加的な音声テキスト化データを利用することができる。それにより、例えば、コールセンターのオペレータは、顧客の情報を入力するために装置を使用することができ、装置が、推定した記号シーケンスに確信をもっていないことに応答して、顧客から記号シーケンス(例えば、顧客ID)を再度要求することがある。
上に説明したように、装置は、反復の表示を用いて、より少ない計算リソースを用いてターゲット記号シーケンスを正確に検出することができる。特に、装置は、反復の表示を用いることにより、より少ない計算リソースを用いて、ターゲット記号シーケンス(例えば、電話番号)を、音声テキスト化データ内の他の混乱を招く記号シーケンス(例えば、製品ID)と区別することができる。
話し手が、確認のために会話において重要な記号シーケンスの少なくとも一部を反復することがある。装置は、ターゲット記号シーケンスを識別するために、こうした反復を利用することができる。具体的には、エージェントとクライアントとの間の会話の際、エージェントは、クライアントの情報(例えば、顧客ID、電話番号等)を全体的又は部分的に確認することがある。従って、装置は、エージェントと顧客との間の会話全体の中から、エージェントの音声に対応する音声テキスト化データの部分のみを使用することができる。
図8は、本発明の実施形態による再帰ニューラル、ネットワーク(RNN)を示す。1つの実施形態において、RNNは、ハードウェア実装を含む。別の実施形態において、RNNは、再帰層210と、出力層220とを含む。図2に示されるように、再帰層210は、新しい入力を繰り返し受け取り、新しい入力及び各時点についての現在の状態に基づいて、次の状態を計算することができる。言い換えれば、再帰層210は、各入力についての状態を更新することができる。
再帰層210は、出力層220に、候補データについての再帰層210の出力(例えば、最新の状態)を提供することができる。実施形態による再帰層210は、推定セクション170のような推定セクション及び/又は訓練セクション190のような訓練セクションにより実施することができる。
出力層220は、再帰層210からの出力に基づいて、結果として得られる出力データを処理することができる。出力層220は、ソフトマックス(softmax)層又は階層ソフトマックス層とすることができる。出力層220は、推定セクション及び/又は訓練セクションにより実施することができる。
図9は、本発明の実施形態によるLSTMを示す。例えば、再帰層210のような、RNN内の再帰層は、図9で表されるLSTMにより実装することができる。こうした実施において、状態(上に「現在の状態」及び「次の状態」と呼ばれる)は、隠れ状態h及び時点tについてのセル状態cを含み、ここで、t=1,...,Tである。
図9の実施形態において、LSTMは、(c、h,x)を入力し、(c,h)を計算し、時点1におけるyを出力し、...、(ct−1、ht−1、x)を入力し、時点tにおける(c,h)を計算し、(c、h、xt+1)を入力し、時点t+1における(ct+1,ht+1)を計算し、...、(cT−1、hT−1、x)を入力し、時点Tにおける(c、h)を計算することができる。LSTMは、時点tについての出力yを出力することができ、これは、隠れ状態hと同じであり得る。LSTMは、再帰層の最後の状態として、最後の時点Tにおけるyを出力することができる。
図10は、本発明の実施形態による推定モデルを示す。推定セクションは、候補を処理するために複数の再帰ニューラル・ネットワークを用いることができる。実施形態において、推定セクションは、ラベル付けされた反復を有する各候補の複数の関連部分の各々を、各々が独立した重みを有する複数の再帰ニューラル・ネットワークの1つに入力することができる。推定セクションは、関連部分における各語(又は、反復表示)を、テキストの順番の方向(すなわち、左から右)又はテキストの逆順の方向(すなわち、右から左)に入力することができる。
反復表示を有する各候補の複数の関連部分の各々は、各候補の複数の関連部分の各々の位置又は各候補を構成する記号シーケンスに依存する方向において、複数の再帰ニューラル・ネットワークの1つに入力される。それにより、推定セクションは、関連部分の相対的位置、及び候補/記号シーケンスを考慮に入れることにより、ターゲット記号シーケンスの推定の高い精度を達成することができる。
図10の実施形態において、音声テキスト化データは図3と同じであり、候補は、8桁のテンプレートにより検出される記号シーケンス「08008012」及び3桁のテンプレートにより検出される記号シーケンス「513」からなる「08008012513」である。関連部分は左側の語「My phone number is(私の電話番号は)」と、中間の語「34 oh cool it’s easy to remember yeah and the number is 5(34 まあ 覚えやすいですね はい そして 番号は5)」と、右側の語、反復表示「rep(3)」を有する「1 hmm Rep(3)1...(1 そう rep(3)1...)」とを含む。
図10の実施形態において、推定セクションは、左側の語に対してLSTM1を使用し、中間の語に対してLSTM2及びLSTM3を使用し、右側の語に対してLSTM4を使用することができる。推定セクションは、左側の語をLSTM1に、左側の語の元の順番で入力することができる。例えば、推定セクションは最初に、左側の語の第1の語「My」をLSTM1に入力し、第1の語の第1の出力を計算し、次に、第1の出力及び第2の語「phone」をLSTM1に入力し、第2の出力を計算し、次に、第2の出力及び第3の語「number」をLSTM1に入力し、第3の出力を計算し、第3の出力及び第4の語「is」をLSTM1に入力し、第4の出力を計算し、第4の出力(すなわち、最後の出力)をソフトマックス層に入力することができる。
推定セクションは、中間の語をLSTM2に、中間の語の元の順番で入力することができる。推定セクションは最初に、中間の語の第1の語「3」をLSTM2に入力し、第1の語の第1の出力を計算し、次に、第1の出力及び第2の語「4」をLSTM2に入力し、第2の出力を計算し、...、第13の出力及び第14の語「5」をLSTM2に入力し、第14の出力(すなわち、最後の出力)を計算し、第14の出力をソフトマックス層に入力することができる。
推定セクションは、中間の語をLSTM3に中間の語の逆順で入力することもできる。推定セクションは最初に、第1の語「5」をLSTM3に入力し、第1の語の第1の出力を計算し、次に、第1の出力及び第2の語「is」をLSTM3に入力し、第2の出力を計算し、...、第13の出力及び第14の語「3」をLSTM3に入力し、第14の出力(すなわち、最後の出力)を計算し、第14の出力をソフトマックス層に入力することができる。それにより、推定セクションは、2つの記号シーケンス間の関連部分を二方向のLSTMに入力することができる。
推定セクションは、右側の語をLSTM4に右側の語の逆順で入力することもできる。推定セクションは最初に、第1の語「right」をLSTM4に入力し、第1の語の第1の出力を計算し、次に、第1の出力及び第2の語「1」をLSTM4に入力し、第2の出力を計算し、次に、第2の出力及び第3の語(又は、反復表示)「rep(3)」をLSTM4に入力し、第3の出力を計算し、次に、第3の出力及び第4の語「hmm」をLSTM4層に入力し、第4の出力を計算し、次に、第4の出力及び第5の語「1」をLSTM4に入力し、第5の出力(すなわち、最後の出力)を計算し、第5の出力をソフトマックス層に入力することができる。
推定セクションは、LSTM1、LSTM2、LSTM3、及びLSTM4から受け取った出力に基づいて、ソフトマックス層の計算を実行することによって、ターゲット記号シーケンスの可能性を推定することができる。それにより、図10の実施形態によると、推定セクションは、1つだけのLSTMが推定モデルとして用いられる実施形態よりも少ない計算リソースを用いてターゲット記号シーケンスの推定の精度を維持することができる。
図11は、本発明の実施形態による第2の動作フローを示す。本実施形態は、装置10のような装置が、図11に示されるようなS310〜S350の動作を実行する例を説明する。装置は、S310〜S350動作を実行することによって、ターゲット記号シーケンスを推定するために、再帰ニューラル・ネットワークを訓練することができる。
S310において、取得セクション110のような取得セクションは、再帰ニューラル・ネットワークのような推定モデルを訓練するために、1以上の訓練データを取得することができる。各訓練データは、正しい記号シーケンスとして用いられる記号シーケンスと対になった音声テキスト化データを含むことができる。正しい記号シーケンスは、音声テキスト化データを調べる人により、予め決定され得る。
S330において、装置は、S310において取得した訓練データを処理し、2以上の訓練データの各音声テキスト化データについての反復表示を有する関連部分を抽出することができる。幾つかの実施形態において、装置は、2以上の訓練データの各音声テキスト化データについてS110〜S160の動作を実行することができる。
S350において、訓練データセクション190のような訓練セクションは、誤差逆伝播法(backpropagation)により、S170に関連して説明されるLSTMのような再帰ニューラル・ネットワークを訓練することができる。こうした実施形態において、訓練セクションは、割り当てられた確率と各音声テキスト化データの候補のLSTMの出力との間の誤差を減らすように、LSTMの重み(又は、パラメータ)を更新することによって、訓練を実行することができる。実施形態において、訓練セクションは、正しい記号シーケンスと同じ候補に対して1(すなわち、100%)の確率を割り当て、他の候補に対して0(すなわち、0%)の確率を割り当てる。
訓練セクションは、2以上の音声テキスト化データの複数の候補から得られる誤差の和が、閾値を下回るまで又は閾値より減らなくなるまで、各LSTMの重みを繰り返し更新することができる。
図10の実施形態において、訓練セクションは、4つのLSTM(LSTM1〜4)及びソフトマックス層を訓練することができる。それにより、装置は、LSTMを最適化し、テキストの両方向においてターゲット記号シーケンスを検出することができる。
多くの実施形態において、装置は、候補の部分と同じ部分を反復として検出することができる。代替的な実施形態において、検索セクションは、候補の各々の関連部分から、候補の各々の少なくとも部分的シーケンスに類似した類似部分を検出することができる。類似部分は、各候補の少なくとも部分的シーケンス(例えば、テンプレートにより検出される記号シーケンス)とは、1つ又は2つの記号が異なり得る。ラベル付けセクションは、検出した類似部分に、類似性(例えば、「SIM(3)」)を示す情報をラベル付けすることができる。推定セクションは、示される反復及び各候補の類似部分に基づいて、候補の各々がターゲット記号シーケンスであるかどうかを推定することができる。
幾つかの実施形態において、装置は、訓練の結果に基づいて、図2のS130で用いられる1以上のテンプレートを決定することができる。例えば、装置は、各々の可能なテンプレートに対応する複数の推定モデルを生成するために、訓練データの1つの部分により、可能なテンプレートの各々について図11の動作を実行することができる。装置は、訓練データの他の部分により各推定モデルを評価し、評価の結果に基づいて、可能なテンプレートの部分を選択することができる。
再帰ニューラル・ネットワークを用いる多くの実施形態が上で説明されたが、幾つかの実施形態において、装置は、再帰ニューラル・ネットワークの代わりにサポート・ベクター・マシン(Support Vector Machine:SVM)を推定モデルとして用いることができる。実施形態において、推定セクションは、テキスト自体の代わりに単語のバッグ(Bag of Words)を推定モデルに関連部分として入力することができる。例えば、図2のS170の動作において、推定セクションは、S160において生成した反復表示を有する関連部分に対応する単語のバッグを生成することができ、次に、単語のバッグをSVMに入力することができる。S350の動作において、訓練セクションは、訓練データから生成した単語のバッグを用いて、再帰ニューラル・ネットワークの代わりにSVMを訓練することができる。代替的な実施形態において、訓練セクションは、単語のバッグを用いて、任意の他の識別(discriminative)モデルを推定モデルとして訓練することもできる。実施形態によると、関連部分は、固定長ベクトルにより表される。
図12は、本発明の実施形態による、クラウド・サービスを利用するように構成されたコンピュータの例示的なハードウェア構成を示す。コンピュータ800にインストールされたプログラムにより、コンピュータ800が、本発明の実施形態の装置、又はその1以上のセクション(モジュール、コンポーネント、要素等を含む)と関連した動作の役割を果たすこと又は動作を実行することができ、及び/又はコンピュータ800が、本発明の実施形態のプロセス又はそのステップを実行することができる。こうしたプログラムは、CPU 800−12により実行し、コンピュータ800に、本明細書で説明されるフローチャート及びブロック図のブロックの一部又は全てと関連した特定の動作を実行させることができる。
本実施形態によるコンピュータ800は、ホスト・コントローラ800−10により互いに接続される、CPU800−12、RAM800−14、グラフィックス・コントローラ800−16、サウンド・コントローラ、及びディスプレイ・デバイス800−18を含む。コンピュータ800は、入力/出力コントローラ800−20を介してホスト・コントローラ800−10に接続される、通信インターフェース800−22、ハードディスク・ドライブ800−24、DVD−ROMドライブ800−26、及びICカード・ドライブなどの入力/出力ユニットも含む。コンピュータは、入力/出力チップ800−40を通じて入力/出力コントローラ800−20に接続される、ROM800−30及びキーボード800−42などのレガシー入力/出力ユニットも含む。
CPU800−12は、ROM800−30及びRAM800−14内に格納されるプログラムに従って動作し、それにより、各ユニットを制御する。グラフィックス・コントローラ800−16は、RAM800−14内又はそれ自体で提供されるフレーム・バッファ等上のCPU800−12により生成される画像データを取得し、画像データをディスプレイ・デバイス800−18上に表示させる。サウンド・コントローラは、接続されたマイクロフォン又は他の音声入力デバイスから音を取得することができる。サウンド・コントローラは、専属されたスピーカ又は他の音声出力デバイス上に音を生成することができる。
通信インターフェース800−22は、ネットワーク800−50を介して他の電子デバイスと通信する。ハードディスク・ドライブ800−24は、コンピュータ800内のCPU800−12により用いられるプログラム及びデータを格納する。DVD−ROMドライブ800−26は、DVD−ROM800−01からプログラム又はデータを読み取り、RAM800−14を介して、ハードディスク・ドライブ800−24にプログラム又はデータを提供する。ICカード・ドライブは、ICカードからプログラム及びデータを読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM800−30は、起動時にコンピュータ800により実行されるブート・プログラム、及び/又はコンピュータ800のハードウェアに依存するプログラムを内部に格納する。入力/出力チップ800−40は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して種々の入力/出力ユニットを入力/出力コントローラ800−20に接続することもできる。
プログラムが、コンピュータ・プログラム製品(例えば、DVD−ROM800−01又はICカードのようなコンピュータ可読媒体)により提供される。プログラムは、コンピュータ可読媒体から読み取られ、同じくコンピュータ可読媒体の例であり、CPU800−12により実行される、ハードディスク・ドライブ800−24、RAM800−14、又はROM800−30にインストールされる。これらのプログラム内に記述される情報処理をコンピュータ800内に読み取り、結果としてプログラムと上述の種々のタイプのハードウェア・リソースとの間の協働がもたらされる。装置又は方法は、コンピュータ800の使用による動作又は情報の処理を実現することによって構成することができる。
例えば、コンピュータ800と外部デバイスとの間で通信が行われる場合、CPU800−12は、RAM800−14にロードされた通信プログラムを実行し、通信プログラム内に記述される処理に基づいて、通信インターフェース800−22に通信処理を指示することができる。CPU800−12の制御下の通信インターフェース800−22は、RAM800−14、ハードディスク・ドライブ800−24、DVD−ROM800−01、又はICカードのような記録媒体内に提供される伝送バッファ領域上に格納される伝送データを読み取り、読み取った伝送データをネットワーク800−50に伝送するか、ネットワーク800−50から受け取った受信データを、記録媒体上に提供される受信バッファ領域等に書き込む。
さらに、CPU800−12は、RAM800−14、ハードディスク・ドライブ800−24、DVD−ROMドライブ800−26(DVD−ROM800−01)、ICカード等のような外部記録媒体内に格納されたファイル又はデータベースの全て又は必要な部分を、RAM800−14に読み取らせ、RAM800−14上のデータに対して種々のタイプの処理を実行することができる。次に、CPU800−12は、処理されたデータを外部記録媒体にライトバックすることができる。
情報処理を行うために、種々のタイプのプログラム、データ、テーブル及びデータベースのような種々のタイプの情報を記録媒体内に格納することができる。CPU800−12は、RAM800−14から読み取られたデータに対して、本開示全体を通して説明され、プログラムの命令シーケンスにより示されるような、種々のタイプの動作、情報の処理、条件判断、条件付き分岐、条件なし分岐、情報の検索/置換等を含む種々のタイプの処理を実行し、結果をRAM800−14にライトバックすることができる。
さらに、CPU800−12は、記録媒体のファイル、データベース等内の情報を検索することができる。例えば、各々が第1の属性の属性値を有する複数のエントリが第2の属性の属性値と関連付けられ、記録媒体内に格納されるとき、CPU800−12は、複数のエントリの中から、第1の属性の属性値が指定される条件に合致するエントリを検索し、エントリ内に格納される第2の属性の属性値を読み取り、それにより、所定の条件を満たす第1の属性と関連した第2の属性の属性値を得ることができる。
上で説明したプログラム又はソフトウェア・モジュールは、コンピュータ800上又はその近くのコンピュータ可読媒体に格納することができる。さらに、専用通信ネットワーク又はインターネットに接続されるサーバ・システム内に提供される、ハードディスク又はRAMなどの記録媒体をコンピュータ可読媒体として用いて、これにより、ネットワークを介してプログラムをコンピュータ800に提供することができる。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1以上のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1以上のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1以上のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1以上のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1以上の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施形態に限定されない。本発明の上述の実施形態に、種々の変更又は改良を加えることが可能であることが当業者には明らかである。また、そうした変更又は改良を加えた実施形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。
特許請求の範囲、実施形態、又は図に示される装置、システム、プログラム、及び方法により実施される各プロセスの動作、手順、ステップ、及び段階は、順番が、「に先立って(prior to)」、「より前に(before)」等により示されず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実施することができる。特許請求の範囲、実施形態、又は図において、プロセス・フローが、「最初に(first)」又は「次に(next)」のような語句を用いて説明されたとしても、これは必ずしも、プロセスをこの順序で実施しなければならないことを意味するものではない。
上記から明らかにされるように、本発明の実施形態は、時系列入力データに対応するモデルを学習する学習装置が、より高い表現能力及び学習能力を有し、学習動作をより簡単に実行することを可能にする。
10:装置
20:データベース
100:格納セクション
110:取得セクション
130:検出セクション
140:抽出セクション
150:検索セクション
160:ラベル付けセクション
170:推定セクション
190:訓練セクション

Claims (25)

  1. 音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することと、
    前記音声テキスト化データから各候補の関連部分を抽出することと、
    対応する前記候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することと、
    前記検出した反復に反復表示をラベル付けすることと、
    前記候補の各々の前記反復表示を含む前記対応する関連部分を用いて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することと、
    を含む、コンピュータにより実施される方法。
  2. 前記音声テキスト化データから前記ターゲット記号シーケンスの前記1以上の候補を検出することは、
    前記音声テキスト化データから、前記候補の各々を構成する2以上の記号シーケンスを抽出することであって、前記2以上の記号シーケンスは、前記音声テキスト化データにおいて互いに離れている、抽出することを含む、請求項1に記載の方法。
  3. 前記対応する候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することは、
    前記対応する候補の前記関連部分内に、前記対応する候補を構成する前記2以上の記号シーケンスの少なくとも1つを検出することを含む、請求項2に記載の方法。
  4. 前記2以上の記号シーケンスを抽出することは、前記所定数の記号シーケンスを抽出することによって実行され、前記2以上の記号シーケンスは重ならず、前記2以上の記号シーケンスの連結は前記候補の各々を形成する、請求項2に記載の方法。
  5. 前記候補の各々の前記関連部分は、前記候補の前記各々に隣接する部分を含む、請求項1に記載の方法。
  6. 各々の対応する候補の前記反復表示に基づいて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することは、
    前記反復表示を有する各候補の前記関連部分を再帰ニューラル・ネットワークに入力することによって、各候補が前記ターゲット記号シーケンスである確率を推定することを含む、請求項5に記載の方法。
  7. 各々の対応する候補の前記反復表示に基づいて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することは、
    前記候補の中で前記再帰ニューラル・ネットワークからどの候補が最も高い確率を出力するかを判断することをさらに含む、請求項6に記載の方法。
  8. 前記音声テキスト化データから各候補の関連部分を抽出することは、前記音声テキスト化データから前記候補の複数の前記関連部分を抽出することを含み、
    ラベル付けされた反復を有する前記候補の各々の前記関連部分を再帰ニューラル・ネットワークに入力することによって、各候補が前記ターゲット記号シーケンスである確率を推定することは、ラベル付けされた反復を有する前記候補の各々の前記複数の関連部分の各々を、複数の再帰ニューラル・ネットワークの中の1つの再帰ニューラル・ネットワークに入力することを含み、
    反復表示を有する前記候補の各々の前記複数の関連部分の各々は、前記候補の前記各々に対する前記複数の関連部分の各々の位置に応じた方向に、前記複数の再帰ニューラル・ネットワークの中の1つの再帰ニューラル・ネットワークに入力される、請求項6に記載の方法。
  9. 前記候補についての前記確率が閾値を下回ると判断することに応答して、付加的な音声テキスト化データを要求することをさらに含む、請求項6に記載の方法。
  10. 前記検出した反復に前記反復表示をラベル付けすることは、
    前記検出した反復を前記反復表示と置換することを含む、請求項1に記載の方法。
  11. 前記検出した反復に前記反復表示をラベル付けすることは、
    前記検出した反復に、前記検出した反復の記号の長さの表示をラベル付けすることを含む、請求項1に記載の方法。
  12. 前記検出した反復に前記反復表示をラベル付けすることは、
    前記検出した反復に、前記各候補における前記検出した位置の表示をラベル付けすることを含む、請求項1に記載の方法。
  13. 前記候補の各々の前記関連部分から前記候補の各々の少なくとも部分的シーケンスに類似した類似部分を検出することと、
    前記検出した類似部分に、類似性を示す情報をラベル付けすることと、
    をさらに含み、
    前記候補の各々の前記反復表示を含む前記対応する関連部分を用いて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することは、前記反復表示及び前記各候補の前記類似部分に基づいて、前記候補の各々が前記ターゲット記号シーケンスであるかどうかを推定することを含む、請求項1に記載の方法。
  14. プロセッサと、
    前記プロセッサにより実行されるとき、前記プロセッサに、
    音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することと、
    前記音声テキスト化データから各候補の関連部分を抽出することと、
    対応する前記候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することと、
    前記検出した反復に反復表示をラベル付けすることと、
    前記候補の各々の前記反復表示を含む前記対応する関連部分を用いて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することと、
    を含む動作を実行させる命令をまとめて含む1以上のコンピュータ可読媒体と、
    を含む、装置。
  15. 前記音声テキスト化データから前記ターゲット記号シーケンスの前記1以上の候補を検出することは、
    前記音声テキスト化データから、前記候補の各々を構成する2以上の記号シーケンスを抽出することであって、前記2以上の記号シーケンスは、前記音声テキスト化データにおいて互いに離れている、抽出することを含む、請求項14に記載の装置。
  16. 前記対応する候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することは、
    前記対応する候補の前記関連部分内に、前記対応する候補を構成する前記2以上の記号シーケンスの少なくとも1つを検出することを含む、請求項15に記載の装置。
  17. 前記2以上の記号シーケンスを抽出することは、前記所定数の記号シーケンスを抽出することによって実行され、前記2以上の記号シーケンスは重ならず、前記2以上の記号シーケンスの連結は前記候補の各々を形成する、請求項15に記載の装置。
  18. 前記候補の各々の前記関連部分は、前記候補の前記各々に隣接する部分を含む、請求項17に記載の装置。
  19. 各々の対応する候補の前記反復表示に基づいて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することは、
    前記反復表示を有する各候補の前記関連部分を再帰ニューラル・ネットワークに入力することによって、各候補が前記ターゲット記号シーケンスである確率を推定することを含む、請求項18に記載の装置。
  20. そこに具体化された命令を有する非一時的コンピュータ可読ストレージ媒体であって、
    前記命令は、プロセッサ又はプログラム可能回路により実行であり、前記プロセッサ又はプログラム可能回路に、
    音声テキスト化データからターゲット記号シーケンスの1以上の候補を検出することと、
    前記音声テキスト化データから各候補の関連部分を抽出することと、
    対応する前記候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することと、
    前記検出した反復に反復表示をラベル付けすることと、
    前記候補の各々の前記反復表示を含む前記対応する関連部分を用いて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することと、
    を含む動作を実行させる、非一時的コンピュータ可読ストレージ媒体。
  21. 前記音声テキスト化データから前記ターゲット記号シーケンスの前記1以上の候補を検出することは、
    前記音声テキスト化データから、前記候補の各々を構成する2以上の記号シーケンスを抽出することであって、前記2以上の記号シーケンスは、前記音声テキスト化データにおいて互いに離れている、抽出することを含む、請求項20に記載の非一時的コンピュータ可読ストレージ媒体。
  22. 前記対応する候補の前記関連部分内に、各候補の少なくとも部分的シーケンスの反復を検出することは、
    前記対応する候補の前記関連部分内に、前記対応する候補を構成する前記2以上の記号シーケンスの少なくとも1つを検出することを含む、請求項21に記載の非一時的コンピュータ可読ストレージ媒体。
  23. 前記2以上の記号シーケンスを抽出することは、前記所定数の記号シーケンスを抽出することによって実行され、前記2以上の記号シーケンスは重ならず、前記2以上の記号シーケンスの連結は前記候補の各々を形成する、請求項21に記載の非一時的コンピュータ可読ストレージ媒体。
  24. 前記候補の各々の前記関連部分は、前記候補の前記各々に隣接する部分を含む、請求項23に記載の非一時的コンピュータ可読ストレージ媒体。
  25. 各々の対応する候補の前記反復表示に基づいて、各候補が前記ターゲット記号シーケンスであるかどうかを推定することは、
    前記反復表示を有する各候補の前記関連部分を再帰ニューラル・ネットワークに入力することによって、各候補が前記ターゲット記号シーケンスである確率を推定することを含む、請求項24に記載の非一時的コンピュータ可読ストレージ媒体。
JP2019529583A 2017-01-18 2017-12-04 音声における記号シーケンスの推定 Active JP6986287B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/409,126 US10229685B2 (en) 2017-01-18 2017-01-18 Symbol sequence estimation in speech
US15/409,126 2017-01-18
PCT/IB2017/057599 WO2018134655A1 (en) 2017-01-18 2017-12-04 Symbol sequence estimation in speech

Publications (2)

Publication Number Publication Date
JP2020509397A true JP2020509397A (ja) 2020-03-26
JP6986287B2 JP6986287B2 (ja) 2021-12-22

Family

ID=62841617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019529583A Active JP6986287B2 (ja) 2017-01-18 2017-12-04 音声における記号シーケンスの推定

Country Status (5)

Country Link
US (3) US10229685B2 (ja)
JP (1) JP6986287B2 (ja)
CN (1) CN110192250B (ja)
GB (1) GB2573462B (ja)
WO (1) WO2018134655A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210044985A (ko) * 2019-10-16 2021-04-26 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
US11437026B1 (en) * 2019-11-04 2022-09-06 Amazon Technologies, Inc. Personalized alternate utterance generation
US11735169B2 (en) * 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001189796A (ja) * 1999-12-02 2001-07-10 Lucent Technol Inc 音声メッセージの音声クリップを生成する装置
JP2005505805A (ja) * 2001-10-12 2005-02-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 認識されたテキストの一部をマークする補正装置
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
JP2016180918A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639625B1 (en) * 1995-02-13 2014-01-28 Intertrust Technologies Corporation Systems and methods for secure transaction management and electronic rights protection
US20050005266A1 (en) * 1997-05-01 2005-01-06 Datig William E. Method of and apparatus for realizing synthetic knowledge processes in devices for useful applications
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
AU2001284644A1 (en) * 2000-08-16 2002-02-25 Verisign, Inc. A numeric/voice name internet access architecture and methodology
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7167109B2 (en) * 2005-03-31 2007-01-23 Chenming Hu Hybrid fractional-bit systems
US20080141180A1 (en) * 2005-04-07 2008-06-12 Iofy Corporation Apparatus and Method for Utilizing an Information Unit to Provide Navigation Features on a Device
US20080221882A1 (en) 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US20090118593A1 (en) * 2007-11-07 2009-05-07 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Determining a demographic characteristic based on computational user-health testing of a user interaction with advertiser-specified content
US8374868B2 (en) 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
CN102708862B (zh) 2012-04-27 2014-09-24 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN102760436B (zh) 2012-08-09 2014-06-11 河南省烟草公司开封市公司 一种语音词库筛选方法
US8498864B1 (en) * 2012-09-27 2013-07-30 Google Inc. Methods and systems for predicting a text
US10339452B2 (en) 2013-02-06 2019-07-02 Verint Systems Ltd. Automated ontology development
US10004451B1 (en) * 2013-06-21 2018-06-26 Fitbit, Inc. User monitoring system
US9232063B2 (en) * 2013-10-31 2016-01-05 Verint Systems Inc. Call flow and discourse analysis
US9667386B2 (en) * 2013-11-13 2017-05-30 Samsung Electronics Co., Ltd Transmission of control channel and data channels for coverage enhancements
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
US10564714B2 (en) * 2014-05-09 2020-02-18 Google Llc Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US9607618B2 (en) * 2014-12-16 2017-03-28 Nice-Systems Ltd Out of vocabulary pattern learning
US10504023B1 (en) * 2015-06-05 2019-12-10 Google Llc Training recurrent neural networks to generate sequences
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US20170154258A1 (en) * 2015-11-30 2017-06-01 National Institute Of Information And Communications Technology Joint estimation method and method of training sequence-to-sequence model therefor
CN105590623B (zh) * 2016-02-24 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的字母音素转换模型生成方法及装置
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
US10417566B2 (en) * 2016-05-22 2019-09-17 Microsoft Technology Licensing, Llc Self-learning technique for training a PDA component and a simulated user component
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001189796A (ja) * 1999-12-02 2001-07-10 Lucent Technol Inc 音声メッセージの音声クリップを生成する装置
JP2005505805A (ja) * 2001-10-12 2005-02-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 認識されたテキストの一部をマークする補正装置
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
JP2016180918A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム

Also Published As

Publication number Publication date
CN110192250A (zh) 2019-08-30
US11145308B2 (en) 2021-10-12
WO2018134655A1 (en) 2018-07-26
US10229685B2 (en) 2019-03-12
GB2573462A (en) 2019-11-06
US20200013408A1 (en) 2020-01-09
US20180204567A1 (en) 2018-07-19
US20190139550A1 (en) 2019-05-09
CN110192250B (zh) 2022-12-30
GB2573462B (en) 2022-02-09
JP6986287B2 (ja) 2021-12-22
US10529337B2 (en) 2020-01-07
GB201910678D0 (en) 2019-09-11

Similar Documents

Publication Publication Date Title
CN110033760B (zh) 语音识别的建模方法、装置及设备
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN109214386B (zh) 用于生成图像识别模型的方法和装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
US10095684B2 (en) Trained data input system
CN108388674B (zh) 用于推送信息的方法和装置
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN110389996A (zh) 实现用于自然语言处理的全句递归神经网络语言模型
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
WO2020001458A1 (zh) 语音识别方法、装置及系统
CN109299320B (zh) 一种信息交互方法、装置、计算机设备和存储介质
CN110516248A (zh) 语音识别结果纠错方法、装置、存储介质和电子设备
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
US11145308B2 (en) Symbol sequence estimation in speech
EP3732629A1 (en) Training sequence generation neural networks using quality scores
US10733537B2 (en) Ensemble based labeling
US11182665B2 (en) Recurrent neural network processing pooling operation
US11663407B2 (en) Management of text-item recognition systems
CN113889092A (zh) 语音识别结果的后处理模型的训练方法、处理方法及装置
CN112434953A (zh) 一种基于计算机数据处理的客服人员考核方法和装置
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置
CN115831154A (zh) 一种情绪识别方法、装置、设备及存储介质
US11675978B2 (en) Entity recognition based on multi-task learning and self-consistent verification
JP2020071737A (ja) 学習方法、学習プログラム及び学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210726

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20211117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211119

R150 Certificate of patent or registration of utility model

Ref document number: 6986287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150