JP2021086144A - 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 - Google Patents

音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021086144A
JP2021086144A JP2020095874A JP2020095874A JP2021086144A JP 2021086144 A JP2021086144 A JP 2021086144A JP 2020095874 A JP2020095874 A JP 2020095874A JP 2020095874 A JP2020095874 A JP 2020095874A JP 2021086144 A JP2021086144 A JP 2021086144A
Authority
JP
Japan
Prior art keywords
voice data
training
training voice
data
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020095874A
Other languages
English (en)
Other versions
JP7208951B2 (ja
Inventor
シャオコン マー
Xiaokong Ma
シャオコン マー
ツー チャン
Ce Zhang
ツー チャン
ジンフォン バイ
Jinfeng Bai
ジンフォン バイ
レイ ジア
Lei Jia
レイ ジア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021086144A publication Critical patent/JP2021086144A/ja
Application granted granted Critical
Publication of JP7208951B2 publication Critical patent/JP7208951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声データが示す意図の種類を決定し、音声データの指示する対話動作を実行する、音声対話の方法、装置、デバイス及コンピュータ読み取り可能な記録媒体を提供する。【解決手段】音声対話の方法は、受信した音声データから短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、音響的特徴をトレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、音声データが示す対話型か非対話型かの意図の種類を決定するステップと、意図の種類が対話型と決定されたことに基づいて音声データの指示する対話動作を実行するステップと、を含む。【選択図】図2

Description

本開示の実施例は、主に音声処理の分野に関し、より具体的には、音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。
人工知能(Artificial Intelligence 、AI)技術の開発及び進歩に伴い、音声対話は、人工知能分野の重要な下位分野として人々の日常生活に入る。音声対話の適用場合も徐々に増えている。スマートデバイス(例えば、移動端末、スマートボックス、車載端末、スマート家電等)は、入力された音声データを識別し、識別された結果に基づいて対話動作を実行することができる。
スマートデバイスと対話する際に、より自然言語に近いコミュニケーションを利用することが望まれる。従来の音声対話方法は、通常、予め定められたポリシーに基づいて簡単な音声対話を実行することに過ぎず、自然言語に近い対話の体験を実現することができない。
本開示の例示的な実施例によれば、音声対話の方案を提供する。
本開示の第1態様において、音声対話方法であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するステップであって、前記意図の種類は、対話型と非対話型とを有するステップと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するステップと、を含む、音声対話方法を提供する。
本開示の第2態様おいて、音声対話装置であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュールと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するように構成された種類識別モジュールであって、前記意図の種類は、対話型と非対話型とを有するモジュールと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するように構成された対話実行モジュールと、を含む、音声対話装置を提供する。
本開示の第3態様において、電子デバイスであって、1または複数のプロセッサと、1つ又は複数のプログラムを記憶するメモリと、を備え、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサに実行されると、本開示の第1態様に記載の方法を実現させる、電子デバイスを提供する。
本開示の第4態様において、プロセッサにより実行されることにより、本開示の第1態様に記載の方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図面を参照して詳細に説明することにより、本発明の各実施例の上記の特徴及び他の特徴、利点及び側面は明らかになる。図において、同一または類似の図面には同一または類似の要素を示す。
本開示の複数の実施例に係る音声対話方案の環境の一例を示す図である。 本発明のいくつかの実施例に係る音声対話方法のフローチャートである。 本発明の実施例に係るフィルタバンク特徴抽出手順のフローチャートである。 本開示を実施可能な複数の実施例に係る種類識別モデルの概略ブロック図である。 本開示の複数の実施例に係る、種類識別モデルの構築方案の環境の一例を示す説明図である。 本開示の複数の実施例を実施可能な音声対話装置の概略ブロック図である。 本開示の複数の実施例を実施可能な演算装置の概略ブロック図である。
以下、図面を参照しながら本発明の実施例を詳細に記述する。本開示のいくつかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に示した実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、例示的なものであり、本開示の保護範囲を限定するものではないと理解すべきである。
本開示の実施例の説明において、用語「含まれる」及びその類似の用語は開放的に含むと解釈すべきであり、すなわち「含まれるが、限定されない」。また、用語「に基づく」は、「少なくとも一部にも基づく」と解釈されるべきである。また、「一実施例」または「当該実施例」の用語は、少なくとも1つの「実施例」として解釈されるべきものである。なお、「第1」、「第2」等の用語は、異なるオブジェクトを指してもよく、同一のオブジェクトを指してもよい。また、以下に、他に明示的な意味又は暗黙的な意味をも含む場合もある。
以上説明したように、人工知能技術の発展に伴い、スマートデバイスとの間の対話は徐々に人々の日常生活に入る。人間と人間との自然言語対話に類似した対話方式でスマートデバイスと対話を行うことが望まれている。
従来の音声対話の方案では、通常、特定のウェイクアップワードによってスマートデバイスをウェイクアップし、スマート装置は、ウェイクアップワード後の入力音声を、デフォルトでユーザの対話コマンドとして、対話動作を実行し、今回の対話動作の実行が完了した後、ウェイクアップワードのモニタリング状態に戻る。換言すれば、この時にユーザは、続けてスマート装置と音声対話しようとすると、再度ウェイクアップワードを利用してスマート装置をウェイクアップする必要である。このような方法では、スマートデバイスは、一回のウェイクアップで、一回のみ対話するものであるため、ユーザは、対話する度に、先ずウェイクアップワードによってウェイクアップ動作を実行する必要となり、複雑となってしまう欠点がある。特に、ユーザが短時間内に複数回対話する必要がある場合(例えば、ユーザは気象状況を調べようとする場合、目覚まし時計を設定しようとする場合、及び、音楽を再生しようとする場合など)では、ユーザ体験が非常に悪くなる。また、このような方法では、ウェイクアップされた後の入力音声の真実の意図を認識せずに、当該入力音声をデフォルトでユーザコマンドとするようにするため、ユーザ入力が断たれた場合(例えば、ユーザの音声が他の環境騒音に覆われる場合など)、又は装置が誤ってウェイクアップされた場合(例えば、スマート装置が周囲の環境騒音をウェイクアップワードとして誤認してウェイクアップ操作を実行する場合など)、ヒューマンコンピュータ対話手順を誤って実行するようになってしまう。
装置と対話するための他の従来方法では、ポリシーを定義し、ウェイクアップワードを増加することにより、一回のウェイクアップで複数回の対話を実現する方法が提供される。このような方法では、実施の効果がポリシーの合理性及びウェイクアップワードの正確性に依存するため、実行可能性も低くなり、効果もよくない。また、このような方法では、誤ってウェイクアップした場合にユーザの音声入力の対話意図を識別できない問題を依然として解決できず、本当の自然言語の対話の効果を実現することができない。
また、従来音声対話方法では、語調、ポーズ及び音量等の簡単な音声情報に基づく音声認識技術、又は、入力音声を複数の単語又は語句に分割して、入力音声の語義を認識する音声認識技術が多く利用されているが、これらの音声認識技術は、入力音声の音響的特徴をよりよく利用することができず、音声認識の正確性が高くない。
本開示の実施例によれば、音声対話のための方法を提供する。当該方法において、受信された音声データにおける複雑な音響的特徴(例えば、フィルタセット特徴及びメル周波数逆スペクトル係数特徴等)を抽出する。抽出された音響的特徴によれば、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声の短時間振幅スペクトルの特徴を反映可能である。入力された音声データに対して、文字ずつ、或いは語句ずつ分析する必要がなく、また、受信された音声データの語調や、ポーズ等の特徴を分析する必要もなくなる。また、抽出された音響的特徴を、種類識別モデルに入力して、上記の音声データに示される意図の種類を決定する。ここで、種類識別モデルは、音声データの短時間振幅スペクトル特性を表すことができる音響的特徴に基づいて構築されたものであるので、文単位で音声認識することを実現することができる。種類識別モデルの出力結果に基づいて、入力された音声データの意図が対話型であるか、又は、非対話型であるかを判断することができる。さらに、音声データの種類に基づき、対話動作をトリガするか否かを決定する。このようにして、対話動作は、特定のウェイクアップワードに依存せず、一回のウェイクアップで複数回対話することを実現する。特に、ユーザが短時間内に複数回の対話を必要とする場合では、より自然言語に近い対話方式を提供することができる。また、本開示の方法は、特に、受信した音声データの意図種類を確定する動作を含むことにより、デバイスが誤ってウェイクアップされた状態にあっても、受信した音声データをデフォルトで対話動作実行用のコマンドとすることなく、不要な対話動作を回避することができる。
続いて、図面を参照しながら本開示の実施例を具体的に記述する。図1は、本開示の複数の実施例が適用可能な例示の環境100を示す模式図である。当該例示の環境100では、演算装置120は、音声データ110を受信可能である。本発明の実施例において、音声データ110は、受信したあらゆる音声データであってもよい。音声データ110の例として、例えば、ユーザからの音声データ、スマートデバイスからの音声データ、他のメディア資源から取得した音声データなどが挙げられ、これらは例示的なものであり、本開示は、何ら限定されない。
図1に示すように、算出装置120は、音声データ110を受信すると、音声データ110の音響的特徴を抽出し、抽出した音響的特徴を種類識別モデル130に入力し、種類識別モデル130から返信された結果に基づいて、音声データ110の意図的なジャンルを決定してもよい。音声データ110の意図の種類に基づいて、受信した音声データ110を正しく処理することができる。具体的には、音声データ110が対話型の意図種類である場合、演算装置120は、音声データ110の指示する対話動作を実行することができる。あるいは、演算装置120は、ユーザへ対話動作の動作結果を返信してもよい。
当業者には理解できるように、図1において、種類識別モデル130は、独立した枠として示されるが、これは、例示的なものである。本開示の実施例によれば、種類識別モデル130は、演算装置120内部の任意の記憶空間に記憶されてもよく、また、演算装置120がアクセス可能な任意の記憶装置に記憶されてもよく、本開示は、具体的な実現形態を限定するものではない。
以下、図2〜図4を参照しながら、本開示の複数の実施例に係る音声対話手順について、より詳細に説明する。図2は、本発明の実施例にかかる音声対話処理の手順200を示すフローチャートである。処理200は、図1の演算装置120により実行可能である。説明の便宜上、図1を参照して手順200について説明する。
ボックス210では、演算装置120は、受信した音声データ110の音響的特徴を抽出する。音声データ110は様々な方法により取得されてもよく、本開示において具体的な実現方法を限定しない。例えば、いくつかの実施例において、演算装置120は、自身の収集装置により、ユーザ又は他の装置からの音声を直接取得してもよい。また、演算装置120は、ネットワークを介して音声データ110を有線的に、または無線的に受信してもよい。
本発明者は、現実には、2つの音調の周波差が臨界帯域幅よりも小さい場合に、人間が2つの音調を同一の音調として聴くことに気がついている。また、本発明者は、音圧が一定である場合に、雑音がある帯域幅に抑制されると、人間の耳に主観的に感知したラウドネスがその帯域幅内で一定となり、且つ、その帯域幅内で、複雑なエンベロープを有する信号のラウドネスが、信号自身の周波数分布にかかわらず、その帯域幅の中心周波数の位置における純音のラウドネスと等しいことにも気がついている。上記した音声データ110の特徴を踏まえ、本開示のいくつかの実施例では、音声データ110の音響的特徴として、フィルタバンク特徴を採用している。
図3を参照して、音響的特徴がフィルタバンク特徴である場合の抽出処理について具体的に説明する。図3は、本開示の実施形態に係るフィルタバンク特徴抽出手順300を示すフローチャートである。手順300は、図1の演算装置120により実現することができる。説明の便宜上、図1を参照して手順300について説明する。
ステップ310では、演算装置120は、受信した音声データ110に対して、有限語長効果(finite word-length effect)の影響を受けにくくなるように、一次有限励起応答ハイパスフィルタにより、音声データ110のスペクトルを平坦化する予め強調処理を実行する。
次のブロック320では、演算装置120は、ハミングウィンドウを介して、予め強調されたデータに対しウィンドウ化を実行する。ハミングウィンドウとは、ある特定の区間において非ゼロの値とし、それ以外の区間においてゼロとする窓関数である。ハミングウィンドウによるウィンドウ化により、その分ギブス効果の影響が低減され、その出力結果は、フーリエ変換によりよく適することになる。
ステップ330では、演算装置120は、ウィンドウ化されたデータに対してフーリエ変換する。これは、音声データ110を時間領域で変換する場合では、音声データ110の特徴を表することが困難であるのに対し、音声データ110をフーリエ変換すると、音声データ110の周波数領域でのエネルギー分布を取得することができ、このような周波数領域でのエネルギー分布は音声データ110の音響的特徴をよく表すことができるからである。
フレーム340では、フーリエ変換されたデータを三角フィルタ関数プールに入力する。三角フィルタ関数プールは、スペクトルを平滑化して、高調波を除去するように作用するものであり、音声データ110の共鳴ピークをよりよく強調することができる。
以上の処理により、演算装置120は、音声データ110の音響的特徴(すなわち、フィルタバンク特徴)を得ることができる。
また、幾つかの実施例において、演算装置120は、音声データ110の音響的特徴として、音声データ110のメル周波数ケプストラム係数の特徴を抽出するようにしてもよい。メル周波数逆スペクトル係数特徴の抽出手順においては、フィルタバンク特徴の抽出手順に比べ、離散コサイン変換が追加される。離散コサイン変換は、パラメータ間の相関を除去することができ、より識別度の良い結果を出力できることに伴い、計算量が増やすことになる。
このようにして、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声データ110の音響的特徴を取得し、音声データ110の短時間振幅スペクトルの特徴を反映することができる。音声データにから音声ガス、ポーズ、音量等の特徴を抽出する従来方法に比べ、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴を利用することにより、音声データ110の音響特性がよりよく表され、音声データ110に対していかなる分割を行うことなく、文単位で音声認識することが実現される。
当業者には理解できるように、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴は、好ましい実施形態であり、唯一な実現形態ではない。他の実施例において、他の音声データ110の短時間振幅スペクトル特性を表す他の音響的特徴を用いてもよく、本開示は、これを限定するものではない。
以上、演算装置120が音声データ110の音響的特徴を抽出する動作について詳細に説明した。図2に戻り、ステップ220において、演算装置120は、抽出された音響的特徴を種類識別モデル130に入力して、音声データ110の意図種類を決定し、すなわち、該音声データ110の意図種類が、対話型の意図種類であるか、又は、非対話型の意図種類であるかを決定する。なお、種類識別モデル130は、トレーニング用音声データの音響的特徴に基づいて構築されてもよい。例えば、上述したフィルタ群特徴やメル周波数ケプストラム特徴などの音響的特徴は、トレーニング用音声データの短時間振幅スペクトル特性を表す音響パラメータとされてもよい。
本開示のいくつかの実施例において、種類識別モデル130の構築において、入力された音響的特徴に対応する音声データ110が対話意図を有するか否かを判断することを目標としてトレーニングする。このようにして、音声データ110を分割する必要がなく、また、音声データ110における音声ガス、ポーズなどの特徴を識別する必要もなく、文単位の音声データ110の意図種類の判定を実現する。
本開示のいくつかの実施例において、種類識別モデル130は畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであってもよい。次に、図4を参照して、本開示の一実施例に係るCLDNNモデルについて説明する。
種類識別モデル130は、図4に示すように、ボリューム層410、正規化層420−1、長・短期記憶層430、正規化層420−2、平均層440、および全結合層450が順に結合して構成されており、正規化層420−1および正規化層420−2は、選択可能である。さらに、図4に示すように、長・短期記憶層430及び正規化層420−2は、順に直列して結合されたN個であってもよく、ただし、Nは1より大きい整数である。
図4に示すように、本開示のいくつかの実施例において、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルは、全結合層450の前に、平均層440をさらに含む。平均層440は、異なる長さのデータの流れが、平均層440を通過することにより、同じ長さとなるために用いられる。このように、異なる音声データ110は一般的に時間領域に異なる長さを有し、平均層440により、音声データ110は時間領域に同じ長さを有することができる。異なる音声データ110の音響特性をより良好に表現することができる。
図2に戻り、ステップ230において、演算装置120は、音声データ110の意図種類が対話型であると判定した場合、対話動作を実行する。具体的には、演算装置120は、音声データ110の語義情報を取得し、さらに、該語義情報に対応する対話動作を決定して、対話手順を実行する。当業者には理解できるように、音声データ110の語義情報の取得、語義情報に対応する対話動作、及び対話手順の実行は、様々な方法により実行されでもよく、本開示は、これに対し限定するものではない。
本発明のいくつかの実施例において、演算装置120は、ウェイクアップした後の一定期間のみに、手順200を実行する。当業者には理解できるように、演算装置120のウェイクアップは、様々な方法により実行されてもよく、例えば、ウェイクアップワード、特定のタッチ/ホバリング操作、特定のアプリケーションをトリガすること、又は予め定義されたウェイクアップポリシー(例えば、特定の時間、場所又は他のトリガ条件等)に基づくこと等が挙げられるが、それに限定されない。演算装置120は、ウェイクアップ指示を受信すると、モニタリング用のタイマを起動して、音声データ110を受信し、モニタリング用のタイマがタイムアウトすると、前記音声データ110の受信を停止する。このようにして、ユーザのプライバシーを良好に保護することができ、演算装置120の消費電力を低減することができる。
上述したように、種類識別モデル130は、トレーニング用音声データ510の音響的特徴に基づいて構築される。当業者には理解できるように、種類識別モデル130の構築と種類識別モデル130の使用とは、互いに独立して実行される二つの操作である。次に、図5を参照して、種類識別モデル130の構築について詳細に説明する。
図5は、本開示の複数の実施例に係る種類識別モデルの構築方法の例示の環境500の一例を示す図である。図5に示すように、トレーニング用装置520は、トレーニング用音声データ510を取得し、トレーニング用音声データ520を用いて種類識別モデル130を構築する。当業者には理解できるように、トレーニング装置520は、図1に示す演算装置120と同じ装置とされてもよく、独立した2つの異なる装置とされてもよい。
まず、トレーニング用装置520は、トレーニング用音声データ510を取得する。当業者には理解できるように、トレーニング用音声データ510の取得は、様々な方法によって行われることができる。本開示のいくつかの実施例において、トレーニング用音声データ510は、他の音声認識プラットフォームからであってもよい。これらの音声プラットフォームは、大量の音声認識データを蓄積しており、そのうち、発音が明晰なデータだけでなく、雑音/背景音/環境雑音又は語義不明のデータも含まれる。音声認識プラットフォームは、当該データの語義が正しく認識されたか否かの情報をさらに提供してもよい。このように、大量のトレーニング用音声データ510を取得することができるので、十分な数のトレーニング用音声データ510の取得が確保される。
選択的に、トレーニング用音声データ510は、人工的に生成されたものであってもよく、または履歴からの対話指示などであってもよい。これらのデータには、対話型の意図が明確なデータだけでなく、非対話型の意図が明確なデータも含まれる。例えば、「今何時?」は、対話型の意図が明確なデータであると認定され、「出勤に行く」は、非対話型の意図が明確なデータであると認定されることになる。このようなデータは、種類識別モデルの構築上でより高い精度を有するので、高い精度の種類識別モデル130を構築することに重要な役割を有する。
選択的に、トレーニング用音声データ510は、さらに対話動作の結果に関するデータを含むことができる。これらのデータには、当該データの指示する対話動作が正常に実行されたデータだけでなく、当該データが示す対話動作が中断されたデータも含まれる。例えば、「今何時?」というデータについて、一般的にスマート装置が、正確に実行して対話の結果を戻すことができる。「テーブル上の本を取って来てください」について、実行の際に、中断されてしまう場合がよくある。幾つかのプラットフォーム又は機構は、このようなデータ、並びに、このようなデータの指示する対話動作が正常に実行されたか否かの結果を提供することができ、また、データの履歴実行情報を分析又は統計することによって上記情報を取得することも可能である。
当業者には理解できるように、他の実施例において、トレーニング用音声データ510の取得には、さらに、他の方法を利用することができ、本開示は、これを限定するものではない。当業者には理解できるように、取得されたトレーニング用音声データ510は、トレーニング用装置520がアクセス可能なあらゆる記憶空間に記憶することができる。また、トレーニング装置520は、有線/無線の接続方式により、ネットワークを介してトレーニング用音声データ510を取得してもよく、本開示のコントラストは限定するものではない。
以上説明したように、トレーニング用音声データ510を取得した後、種類識別モデル130を構築する時に、入力された音響的特徴に対応する音声データ110が対話型の意図を有するか否かの判断を目標としてトレーニングするので、トレーニング用音声データ510に対し、対話意図を示す正例のトレーニング用音声データ、又は、非対話意図を示す負例のトレーニング用音声データとしてアノテーションを付与することを必要とされる。
本開示のいくつかの実施例において、トレーニング用音声データの語義が正しく認識されたか否かに基づいて、トレーニング用音声データ510に対しアノテーションを付与することができる。具体的には、正しく認識されたトレーニング用音声データ510を正例のトレーニング用音声データとし、正しく認識されなかったトレーニング用音声データ510を負のトレーニング用音声データとする。
または、本開示のいくつかの実施例によれば、トレーニング用音声データ510がインタラクティブ意図を有するか否かに基づいてトレーニング用音声データ510にアノテーションを付与することができる。具体的には、対話型の意図を有するトレーニング用音声データ510は、正例のトレーニング用音声データとし、非対話型の意図を有するトレーニング用音声データ510は負例のトレーニング用音声データとするようにアノテーションが付与される。
または、本開示のいくつかの実施例において、トレーニング用音声データ510の指示する対話動作が正常に実行されたか否かに基づいてトレーニング用音声データ510にアノテーションを付与することもできる。具体的には、トレーニング用音声データ510の指示する対話動作が正常に実行されたトレーニング用音声データ510を正例のトレーニング用音声データとし、トレーニング用音声データ160の指示する対話動作が正常に実行されなかったトレーニング用音声データ510を負例のトレーニング用音声データとするようにアノテーションが付与される。
当業者には理解できるように、上述したアノテーション付与の方法は、ただ例示として示されるものに過ぎず、トレーニング用音声データ510のソース/意図種類への影響(正/負)によって、他の実施形態において、他のアノテーション付与の方法を利用することもでき、本開示は、これを限定するものではない。
このように、本開示のいくつかの実施例において、種類識別モデル130の構築時に、種類識別モデル130に入力されたトレーニング用音声データ510は、対話型の意図を示す正例のトレーニング用音声データ、又は、非対話型の意図を示す負例のトレーニング用音声データとしてアノテーションが付与される。例えば、トレーニング用音声データ510の語義が正しく認識されたか否か、トレーニング用音声データ510が対話型の意図を有するか否か、トレーニング用音声データ510の指示する対話動作が正しく実行されたか否かに基づいて、トレーニング用音声データに対しアノテーションを付与するようにしてもよい。このようにして、トレーニング用音声データ510のソースが、より柔軟で且つ多様とされ、トレーニング用の種類識別モデルの認識精度がより高くなる。
トレーニング用装置520は、アノテーションが付与されたトレーニング用音声データ510を用いて、種類識別モデル130を構築することができる。本開示のいくつかの実施例において、トレーニング装置520は、トレーニング用音声データ510の種類識別モデルの構築する精度の順次に、トレーニング用音声データ510を利用することにより、種類識別モデル130を構築することができる。具体的には、トレーニング用装置520は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも、種類識別モデルの構築精度が高い第2組のトレーニング用音声データとを特定する。まず、トレーニング用装置520は、第1組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築する。その後、トレーニング用装置520は、第2組のトレーニング用音声データの音響的特徴を用いて基礎的モデルを更新し、種類識別モデル130を得る。音響的特徴の抽出手順は、音響的特徴の抽出手順と同様であるので、簡潔のために、ここでは説明を繰り返さない。
説明のために、限定するためではない例を挙げると、トレーニング用音声データ510の語義が正しく認識されたか否か、およびトレーニング用音声データ510が示す対話動作が正しく実行されたか否かに応じて、アノテーションが付与されたトレーニング用音声データ510を用いて、基礎的モデルを構築し、そして、トレーニング用音声データ510が対話型の意図を有するか否かに応じて、基礎的モデルを更新することにより、前記タイプ認識モデル130を得ることができる。
当業者には理解できるように、上述の例は、本開示を限定するものではなく説明するためのものに過ぎず、種類識別モデル130の構築動作はより多くの段階に分割して(即ち、複数の基礎的モデルを構築して)実行されてもよい。例えば、まず、第1組のトレーニング用音声データを利用して第1の基礎的モデルを構築し、続いて、第2組のトレーニング用音声データを利用して第一基礎的モデルを更新して第2の基礎的モデルを構築し、それから、第N組のトレーニング用音声データを利用して、第N−1組の基礎的モデルを更新して種類識別型を構築するようにし、ただし、Nは、2より大きい整数である。
トレーニング用音声データ520を区別しない従来の構築方法と比較して、本開示の方法により、種類識別モデルの構築上でより高い精度を有するトレーニング用音声データ510を用いて、種類識別モデル130を最適化することで、種類識別モデル130を精度高く構築することができる。
選択的に、トレーニング用装置520は、トレーニング用音声データ510の種類識別モデルの構築精度に応じて、トレーニング用音声データ510を拡張し、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル130を構築してもよい。具体的には、トレーニング用装置520は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも種類識別モデルの構築精度の高い第2組のトレーニング用音声データとを特定し、そして、第2組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データを拡張する。その後、トレーニング装置520は、拡張されたトレーニング用音声データの音響的特徴を利用して、種類識別モデル130を構築する。音響的特徴の抽出処理は、音響的特徴の抽出処理と同様であり、簡潔のため、ここでは説明を繰り返さない。
説明のために、限定するためではない例を挙げると、トレーニング用装置520は、トレーニング用音声データ510が対話型の意図を有するか否かに応じてトレーニングするためのトレーニング用音声データ510の数を増加させることで、トレーニング用音声データ510を拡張し、そして、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル130を構築する。
第2組のトレーニング用音声データの数の増加は、様々な方法により行われでもよい。本開示のいくつかの実施例において、第2組のトレーニング用音声データ全体を複数回コピーするようにしてもよい。または、第2組のトレーニング用音声データのトレーニング用音声データを異なる割合で複製するようにしてもよい。他の実施例において、さらに他の任意の方式を採用して第2組のトレーニング用音声データの数を増加することができ、本開示は、これを限定するものではない。
当業者には理解できるように、上記種類識別モデル130の構築案同士が互いに組み合わせられてもよい。例えば、まず、トレーニング用音声データ510の種類識別モデルの構築精度に基づいて、トレーニング用音声データ510を拡張し、続いて、拡張されたトレーニング用音声データの種類識別モデルの構築精度に基づいて、拡張されたトレーニング用音声データを利用して複数の基礎的モデルを構築し、最終的に、種類識別モデル130を構築することができる。
このようにして、トレーニング用装置520は、トレーニング用音声データ510が種類識別モデルの構築精度上で差異を有することを考慮して、レーニング用音声データの全体に対する種類識別モデルの構築精度の高いトレーニング用音声データの510の割合を向上させることにより、構築される種類識別モデル130の精度を向上させることができる。
図6は、本開示の実施例に係る音声対話装置600の概略ブロック図である。装置600は、図1の演算装置120に含まれる。装置600は、受信した音声データ110から、音声データ110の短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュール610と、音響的特徴を、トレーニング用音声データ510の音響的特徴に基づいて構築された種類識別モデル130に入力することにより、音声データ110が示す意図の種類を決定するように構成された種類識別モジュール620であって、意図の種類は、対話型と非対話型とを有するモジュールと、意図の種類が対話型と決定されたことに応じて、音声データ110の指示する対話動作を実行するように構成された対話実行モジュール630と備える。
本開示のいくつかの実施例において、装置600は、トレーニング用音声データ510に対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するように構成されたアノテーションモジュールと、アノテーションが付与されたトレーニング用音声データを用いることにより、種類識別モデル130を構築するように構成された種類識別モデル構築モジュールをさらに備える。
本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ510の語義が正しく認識されたことと、トレーニング用音声データ510は対話型の意図を示すこと、トレーニング用音声データ510の指示する対話動作は正常に実行されたことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ510に対して、正例のトレーニング用音声データとしてアノテーションを付与するように構成された、正例のトレーニング用音声データアノテーションモジュールをさらに備える。
本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ510の語義が正しく認識されないことと、トレーニング用音声データ510は非対話型の意図を示すことと、トレーニング用音声データ510の指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ510に対して、負例のトレーニング用音声データとしてアノテーションを付与するように構成された負例のトレーニング用音声データアノテーションモジュールをさらに備える。
本発明のいくつかの実施例において、装置600は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも高い精度で種類識別モデル130を構築可能な第2組のトレーニング用音声データと、を決定するように構成された第1のトレーニング用データ認識モジュールと、第1組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築するように構成された基礎的モデル構築モジュールと、第2組のトレーニング用音声データの音響的特徴を利用して前記基礎的モデルを更新して、種類識別モデル130を得るように構成された第2の種類識別モデル構築モジュールと、をさらに備える。
本発明のいくつかの実施例において、装置600は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも、よりも高い精度で種類識別モデル130を構築可能な第2組のトレーニング用音声データと、を決定するように構成された第2のトレーニング用データ識別モジュールと、第2組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データ510を拡張するように構成されたトレーニング用音声データ拡張モジュールと、拡張されたトレーニング用音声データ510の音響的特徴を利用して種類識別モデル130を構築するように構成された第3の種類識別モデル構築モジュールと、をさらに備える。
本開示のいくつかの実施例において、装置600は、ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データ110を受信するように構成されるタイマ起動モジュールと、モニタリング用のタイマがタイムアウトとなると確定したことに応答し、音声データ110の受信を停止するように構成されるタイマ傍受モジュールをさらに備える。
本開示のいくつかの実施例において、種類識別モデル130は、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであり、CLDNNモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む。
本開示のいくつかの実施例において、音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む。
図7は、本開示の一実施形態に係る電子デバイス700の概略構成を示すブロック図である。電子デバイス700は、図1の演算装置120及び図5のトレーニング用装置520を実現するために利用することができる。同図に示すように、電子デバイス700は、ROM(Read Only Memory)702に記憶されているコンピュータプログラム指令、または記憶部708からRAM (Random Access Memory)703にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部701を備えている。また、RAM703には、装置700の動作に必要な各種プログラムやデータが記憶されている。演算部701、ROM702、およびRAM703は、バス704を介して相互に接続されている。バス704には、入出力(I/O)インタフェース705も接続されている。
I/Oインタフェース705には、例えば、キーボード、マウスなどの入力部706と、例えば、各種のディスプレイ、スピーカなどの出力部707と、例えば、磁気ディスク、光ディスクなどの記憶部708と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部709とを含むデバイス700の複数の部分が接続されている。通信部709は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データのやり取りを行うに用いられる。
演算部701は、様々な処理や演算機能を有する汎用的及び/又は専用的な処理コンポーネントであってよい。演算部701の例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、各種専用のAI(Asymmetric Intellite)演算チップ、各種動作機械学習モデルアルゴリズムの演算部、DSP(Digital Signal Processor)、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部701は、上述した手順200等の各方法、処理を実行する。例えば、実施形態において、手順200は、記憶部708等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ROM702や通信部709を介して電子デバイス700にロードしたり、電子デバイス700にインストールしたりすることも可能である。コンピュータプログラムをRAM703にロードして演算装置701で実行することにより、上述した手順200の各ステップを実行することができる。また、他の実施形態において、演算部701は、例えばファームウェアを利用するなど、他の任意の方法により手順200を実行するように構成されてもよい。
なお、上述した各機能の少なくとも一部は、1または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、オンチップシステムのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)などを含む。
本発明の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD−ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて1つの実施の形態としてもよい。逆に、1つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。
本開示の実施例は、主に音声処理の分野に関し、より具体的には、音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。
人工知能(Artificial Intelligence 、AI)技術の開発及び進歩に伴い、音声対話は、人工知能分野の重要な下位分野として人々の日常生活に入る。音声対話の適用場合も徐々に増えている。スマートデバイス(例えば、移動端末、スマートボックス、車載端末、スマート家電等)は、入力された音声データを識別し、識別された結果に基づいて対話動作を実行することができる。
スマートデバイスと対話する際に、より自然言語に近いコミュニケーションを利用することが望まれる。従来の音声対話方法は、通常、予め定められたポリシーに基づいて簡単な音声対話を実行することに過ぎず、自然言語に近い対話の体験を実現することができない。
本開示の例示的な実施例によれば、音声対話の方案を提供する。
本開示の第1態様において、音声対話方法であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するステップであって、前記意図の種類は、対話型と非対話型とを有するステップと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するステップと、を含む、音声対話方法を提供する。
本開示の第2態様おいて、音声対話装置であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュールと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するように構成された種類識別モジュールであって、前記意図の種類は、対話型と非対話型とを有するモジュールと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するように構成された対話実行モジュールと、を含む、音声対話装置を提供する。
本開示の第3態様において、電子デバイスであって、1または複数のプロセッサと、1つ又は複数のプログラムを記憶するメモリと、を備え、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサに実行されると、本開示の第1態様に記載の方法を実現させる、電子デバイスを提供する。
本開示の第4態様において、プロセッサにより実行されることにより、本開示の第1態様に記載の方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
本開示の第5態様において、コンピュータプログラムであって、プロセッサにより実行されると、本発明の第1の観点による方法を実現するコンピュータプログラムを提供する。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図面を参照して詳細に説明することにより、本発明の各実施例の上記の特徴及び他の特徴、利点及び側面は明らかになる。図において、同一または類似の図面には同一または類似の要素を示す。
本開示の複数の実施例に係る音声対話方案の環境の一例を示す図である。 本発明のいくつかの実施例に係る音声対話方法のフローチャートである。 本発明の実施例に係るフィルタバンク特徴抽出手順のフローチャートである。 本開示を実施可能な複数の実施例に係る種類識別モデルの概略ブロック図である。 本開示の複数の実施例に係る、種類識別モデルの構築方案の環境の一例を示す説明図である。 本開示の複数の実施例を実施可能な音声対話装置の概略ブロック図である。 本開示の複数の実施例を実施可能な演算装置の概略ブロック図である。
以下、図面を参照しながら本発明の実施例を詳細に記述する。本開示のいくつかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に示した実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、例示的なものであり、本開示の保護範囲を限定するものではないと理解すべきである。
本開示の実施例の説明において、用語「含まれる」及びその類似の用語は開放的に含むと解釈すべきであり、すなわち「含まれるが、限定されない」。また、用語「に基づく」は、「少なくとも一部にも基づく」と解釈されるべきである。また、「一実施例」または「当該実施例」の用語は、少なくとも1つの「実施例」として解釈されるべきものである。なお、「第1」、「第2」等の用語は、異なるオブジェクトを指してもよく、同一のオブジェクトを指してもよい。また、以下に、他に明示的な意味又は暗黙的な意味をも含む場合もある。
以上説明したように、人工知能技術の発展に伴い、スマートデバイスとの間の対話は徐々に人々の日常生活に入る。人間と人間との自然言語対話に類似した対話方式でスマートデバイスと対話を行うことが望まれている。
従来の音声対話の方案では、通常、特定のウェイクアップワードによってスマートデバイスをウェイクアップし、スマート装置は、ウェイクアップワード後の入力音声を、デフォルトでユーザの対話コマンドとして、対話動作を実行し、今回の対話動作の実行が完了した後、ウェイクアップワードのモニタリング状態に戻る。換言すれば、この時にユーザは、続けてスマート装置と音声対話しようとすると、再度ウェイクアップワードを利用してスマート装置をウェイクアップする必要である。このような方法では、スマートデバイスは、一回のウェイクアップで、一回のみ対話するものであるため、ユーザは、対話する度に、先ずウェイクアップワードによってウェイクアップ動作を実行する必要となり、複雑となってしまう欠点がある。特に、ユーザが短時間内に複数回対話する必要がある場合(例えば、ユーザは気象状況を調べようとする場合、目覚まし時計を設定しようとする場合、及び、音楽を再生しようとする場合など)では、ユーザ体験が非常に悪くなる。また、このような方法では、ウェイクアップされた後の入力音声の真実の意図を認識せずに、当該入力音声をデフォルトでユーザコマンドとするようにするため、ユーザ入力が断たれた場合(例えば、ユーザの音声が他の環境騒音に覆われる場合など)、又は装置が誤ってウェイクアップされた場合(例えば、スマート装置が周囲の環境騒音をウェイクアップワードとして誤認してウェイクアップ操作を実行する場合など)、ヒューマンコンピュータ対話手順を誤って実行するようになってしまう。
装置と対話するための他の従来方法では、ポリシーを定義し、ウェイクアップワードを増加することにより、一回のウェイクアップで複数回の対話を実現する方法が提供される。このような方法では、実施の効果がポリシーの合理性及びウェイクアップワードの正確性に依存するため、実行可能性も低くなり、効果もよくない。また、このような方法では、誤ってウェイクアップした場合にユーザの音声入力の対話意図を識別できない問題を依然として解決できず、本当の自然言語の対話の効果を実現することができない。
また、従来音声対話方法では、語調、ポーズ及び音量等の簡単な音声情報に基づく音声認識技術、又は、入力音声を複数の単語又は語句に分割して、入力音声の語義を認識する音声認識技術が多く利用されているが、これらの音声認識技術は、入力音声の音響的特徴をよりよく利用することができず、音声認識の正確性が高くない。
本開示の実施例によれば、音声対話のための方法を提供する。当該方法において、受信された音声データにおける複雑な音響的特徴(例えば、フィルタセット特徴及びメル周波数逆スペクトル係数特徴等)を抽出する。抽出された音響的特徴によれば、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声の短時間振幅スペクトルの特徴を反映可能である。入力された音声データに対して、文字ずつ、或いは語句ずつ分析する必要がなく、また、受信された音声データの語調や、ポーズ等の特徴を分析する必要もなくなる。また、抽出された音響的特徴を、種類識別モデルに入力して、上記の音声データに示される意図の種類を決定する。ここで、種類識別モデルは、音声データの短時間振幅スペクトル特性を表すことができる音響的特徴に基づいて構築されたものであるので、文単位で音声認識することを実現することができる。種類識別モデルの出力結果に基づいて、入力された音声データの意図が対話型であるか、又は、非対話型であるかを判断することができる。さらに、音声データの種類に基づき、対話動作をトリガするか否かを決定する。このようにして、対話動作は、特定のウェイクアップワードに依存せず、一回のウェイクアップで複数回対話することを実現する。特に、ユーザが短時間内に複数回の対話を必要とする場合では、より自然言語に近い対話方式を提供することができる。また、本開示の方法は、特に、受信した音声データの意図種類を確定する動作を含むことにより、デバイスが誤ってウェイクアップされた状態にあっても、受信した音声データをデフォルトで対話動作実行用のコマンドとすることなく、不要な対話動作を回避することができる。
続いて、図面を参照しながら本開示の実施例を具体的に記述する。図1は、本開示の複数の実施例が適用可能な例示の環境100を示す模式図である。当該例示の環境100では、演算装置120は、音声データ110を受信可能である。本発明の実施例において、音声データ110は、受信したあらゆる音声データであってもよい。音声データ110の例として、例えば、ユーザからの音声データ、スマートデバイスからの音声データ、他のメディア資源から取得した音声データなどが挙げられ、これらは例示的なものであり、本開示は、何ら限定されない。
図1に示すように、算出装置120は、音声データ110を受信すると、音声データ110の音響的特徴を抽出し、抽出した音響的特徴を種類識別モデル130に入力し、種類識別モデル130から返信された結果に基づいて、音声データ110の意図的なジャンルを決定してもよい。音声データ110の意図の種類に基づいて、受信した音声データ110を正しく処理することができる。具体的には、音声データ110が対話型の意図種類である場合、演算装置120は、音声データ110の指示する対話動作を実行することができる。あるいは、演算装置120は、ユーザへ対話動作の動作結果を返信してもよい。
当業者には理解できるように、図1において、種類識別モデル130は、独立した枠として示されるが、これは、例示的なものである。本開示の実施例によれば、種類識別モデル130は、演算装置120内部の任意の記憶空間に記憶されてもよく、また、演算装置120がアクセス可能な任意の記憶装置に記憶されてもよく、本開示は、具体的な実現形態を限定するものではない。
以下、図2〜図4を参照しながら、本開示の複数の実施例に係る音声対話手順について、より詳細に説明する。図2は、本発明の実施例にかかる音声対話処理の手順200を示すフローチャートである。処理200は、図1の演算装置120により実行可能である。説明の便宜上、図1を参照して手順200について説明する。
ボックス210では、演算装置120は、受信した音声データ110の音響的特徴を抽出する。音声データ110は様々な方法により取得されてもよく、本開示において具体的な実現方法を限定しない。例えば、いくつかの実施例において、演算装置120は、自身の収集装置により、ユーザ又は他の装置からの音声を直接取得してもよい。また、演算装置120は、ネットワークを介して音声データ110を有線的に、または無線的に受信してもよい。
本発明者は、現実には、2つの音調の周波差が臨界帯域幅よりも小さい場合に、人間が2つの音調を同一の音調として聴くことに気がついている。また、本発明者は、音圧が一定である場合に、雑音がある帯域幅に抑制されると、人間の耳に主観的に感知したラウドネスがその帯域幅内で一定となり、且つ、その帯域幅内で、複雑なエンベロープを有する信号のラウドネスが、信号自身の周波数分布にかかわらず、その帯域幅の中心周波数の位置における純音のラウドネスと等しいことにも気がついている。上記した音声データ110の特徴を踏まえ、本開示のいくつかの実施例では、音声データ110の音響的特徴として、フィルタバンク特徴を採用している。
図3を参照して、音響的特徴がフィルタバンク特徴である場合の抽出処理について具体的に説明する。図3は、本開示の実施形態に係るフィルタバンク特徴抽出手順300を示すフローチャートである。手順300は、図1の演算装置120により実現することができる。説明の便宜上、図1を参照して手順300について説明する。
ステップ310では、演算装置120は、受信した音声データ110に対して、有限語長効果(finite word-length effect)の影響を受けにくくなるように、一次有限励起応答ハイパスフィルタにより、音声データ110のスペクトルを平坦化する予め強調処理を実行する。
次のブロック320では、演算装置120は、ハミングウィンドウを介して、予め強調されたデータに対しウィンドウ化を実行する。ハミングウィンドウとは、ある特定の区間において非ゼロの値とし、それ以外の区間においてゼロとする窓関数である。ハミングウィンドウによるウィンドウ化により、その分ギブス効果の影響が低減され、その出力結果は、フーリエ変換によりよく適することになる。
ステップ330では、演算装置120は、ウィンドウ化されたデータに対してフーリエ変換する。これは、音声データ110を時間領域で変換する場合では、音声データ110の特徴を表することが困難であるのに対し、音声データ110をフーリエ変換すると、音声データ110の周波数領域でのエネルギー分布を取得することができ、このような周波数領域でのエネルギー分布は音声データ110の音響的特徴をよく表すことができるからである。
フレーム340では、フーリエ変換されたデータを三角フィルタ関数プールに入力する。三角フィルタ関数プールは、スペクトルを平滑化して、高調波を除去するように作用するものであり、音声データ110の共鳴ピークをよりよく強調することができる。
以上の処理により、演算装置120は、音声データ110の音響的特徴(すなわち、フィルタバンク特徴)を得ることができる。
また、幾つかの実施例において、演算装置120は、音声データ110の音響的特徴として、音声データ110のメル周波数ケプストラム係数の特徴を抽出するようにしてもよい。メル周波数逆スペクトル係数特徴の抽出手順においては、フィルタバンク特徴の抽出手順に比べ、離散コサイン変換が追加される。離散コサイン変換は、パラメータ間の相関を除去することができ、より識別度の良い結果を出力できることに伴い、計算量が増やすことになる。
このようにして、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声データ110の音響的特徴を取得し、音声データ110の短時間振幅スペクトルの特徴を反映することができる。音声データにから音声ガス、ポーズ、音量等の特徴を抽出する従来方法に比べ、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴を利用することにより、音声データ110の音響特性がよりよく表され、音声データ110に対していかなる分割を行うことなく、文単位で音声認識することが実現される。
当業者には理解できるように、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴は、好ましい実施形態であり、唯一な実現形態ではない。他の実施例において、他の音声データ110の短時間振幅スペクトル特性を表す他の音響的特徴を用いてもよく、本開示は、これを限定するものではない。
以上、演算装置120が音声データ110の音響的特徴を抽出する動作について詳細に説明した。図2に戻り、ステップ220において、演算装置120は、抽出された音響的特徴を種類識別モデル130に入力して、音声データ110の意図種類を決定し、すなわち、該音声データ110の意図種類が、対話型の意図種類であるか、又は、非対話型の意図種類であるかを決定する。なお、種類識別モデル130は、トレーニング用音声データの音響的特徴に基づいて構築されてもよい。例えば、上述したフィルタ群特徴やメル周波数ケプストラム特徴などの音響的特徴は、トレーニング用音声データの短時間振幅スペクトル特性を表す音響パラメータとされてもよい。
本開示のいくつかの実施例において、種類識別モデル130の構築において、入力された音響的特徴に対応する音声データ110が対話意図を有するか否かを判断することを目標としてトレーニングする。このようにして、音声データ110を分割する必要がなく、また、音声データ110における音声ガス、ポーズなどの特徴を識別する必要もなく、文単位の音声データ110の意図種類の判定を実現する。
本開示のいくつかの実施例において、種類識別モデル130は畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであってもよい。次に、図4を参照して、本開示の一実施例に係るCLDNNモデルについて説明する。
種類識別モデル130は、図4に示すように、ボリューム層410、正規化層420−1、長・短期記憶層430、正規化層420−2、平均層440、および全結合層450が順に結合して構成されており、正規化層420−1および正規化層420−2は、選択可能である。さらに、図4に示すように、長・短期記憶層430及び正規化層420−2は、順に直列して結合されたN個であってもよく、ただし、Nは1より大きい整数である。
図4に示すように、本開示のいくつかの実施例において、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルは、全結合層450の前に、平均層440をさらに含む。平均層440は、異なる長さのデータの流れが、平均層440を通過することにより、同じ長さとなるために用いられる。このように、異なる音声データ110は一般的に時間領域に異なる長さを有し、平均層440により、音声データ110は時間領域に同じ長さを有することができる。異なる音声データ110の音響特性をより良好に表現することができる。
図2に戻り、ステップ230において、演算装置120は、音声データ110の意図種類が対話型であると判定した場合、対話動作を実行する。具体的には、演算装置120は、音声データ110の語義情報を取得し、さらに、該語義情報に対応する対話動作を決定して、対話手順を実行する。当業者には理解できるように、音声データ110の語義情報の取得、語義情報に対応する対話動作、及び対話手順の実行は、様々な方法により実行されでもよく、本開示は、これに対し限定するものではない。
本発明のいくつかの実施例において、演算装置120は、ウェイクアップした後の一定期間のみに、手順200を実行する。当業者には理解できるように、演算装置120のウェイクアップは、様々な方法により実行されてもよく、例えば、ウェイクアップワード、特定のタッチ/ホバリング操作、特定のアプリケーションをトリガすること、又は予め定義されたウェイクアップポリシー(例えば、特定の時間、場所又は他のトリガ条件等)に基づくこと等が挙げられるが、それに限定されない。演算装置120は、ウェイクアップ指示を受信すると、モニタリング用のタイマを起動して、音声データ110を受信し、モニタリング用のタイマがタイムアウトすると、前記音声データ110の受信を停止する。このようにして、ユーザのプライバシーを良好に保護することができ、演算装置120の消費電力を低減することができる。
上述したように、種類識別モデル130は、トレーニング用音声データ510の音響的特徴に基づいて構築される。当業者には理解できるように、種類識別モデル130の構築と種類識別モデル130の使用とは、互いに独立して実行される二つの操作である。次に、図5を参照して、種類識別モデル130の構築について詳細に説明する。
図5は、本開示の複数の実施例に係る種類識別モデルの構築方法の例示の環境500の一例を示す図である。図5に示すように、トレーニング用装置520は、トレーニング用音声データ510を取得し、トレーニング用音声データ520を用いて種類識別モデル130を構築する。当業者には理解できるように、トレーニング装置520は、図1に示す演算装置120と同じ装置とされてもよく、独立した2つの異なる装置とされてもよい。
まず、トレーニング用装置520は、トレーニング用音声データ510を取得する。当業者には理解できるように、トレーニング用音声データ510の取得は、様々な方法によって行われることができる。本開示のいくつかの実施例において、トレーニング用音声データ510は、他の音声認識プラットフォームからであってもよい。これらの音声プラットフォームは、大量の音声認識データを蓄積しており、そのうち、発音が明晰なデータだけでなく、雑音/背景音/環境雑音又は語義不明のデータも含まれる。音声認識プラットフォームは、当該データの語義が正しく認識されたか否かの情報をさらに提供してもよい。このように、大量のトレーニング用音声データ510を取得することができるので、十分な数のトレーニング用音声データ510の取得が確保される。
選択的に、トレーニング用音声データ510は、人工的に生成されたものであってもよく、または履歴からの対話指示などであってもよい。これらのデータには、対話型の意図が明確なデータだけでなく、非対話型の意図が明確なデータも含まれる。例えば、「今何時?」は、対話型の意図が明確なデータであると認定され、「出勤に行く」は、非対話型の意図が明確なデータであると認定されることになる。このようなデータは、種類識別モデルの構築上でより高い精度を有するので、高い精度の種類識別モデル130を構築することに重要な役割を有する。
選択的に、トレーニング用音声データ510は、さらに対話動作の結果に関するデータを含むことができる。これらのデータには、当該データの指示する対話動作が正常に実行されたデータだけでなく、当該データが示す対話動作が中断されたデータも含まれる。例えば、「今何時?」というデータについて、一般的にスマート装置が、正確に実行して対話の結果を戻すことができる。「テーブル上の本を取って来てください」について、実行の際に、中断されてしまう場合がよくある。幾つかのプラットフォーム又は機構は、このようなデータ、並びに、このようなデータの指示する対話動作が正常に実行されたか否かの結果を提供することができ、また、データの履歴実行情報を分析又は統計することによって上記情報を取得することも可能である。
当業者には理解できるように、他の実施例において、トレーニング用音声データ510の取得には、さらに、他の方法を利用することができ、本開示は、これを限定するものではない。当業者には理解できるように、取得されたトレーニング用音声データ510は、トレーニング用装置520がアクセス可能なあらゆる記憶空間に記憶することができる。また、トレーニング装置520は、有線/無線の接続方式により、ネットワークを介してトレーニング用音声データ510を取得してもよく、本開示のコントラストは限定するものではない。
以上説明したように、トレーニング用音声データ510を取得した後、種類識別モデル130を構築する時に、入力された音響的特徴に対応する音声データ110が対話型の意図を有するか否かの判断を目標としてトレーニングするので、トレーニング用音声データ510に対し、対話意図を示す正例のトレーニング用音声データ、又は、非対話意図を示す負例のトレーニング用音声データとしてアノテーションを付与することを必要とされる。
本開示のいくつかの実施例において、トレーニング用音声データの語義が正しく認識されたか否かに基づいて、トレーニング用音声データ510に対しアノテーションを付与することができる。具体的には、正しく認識されたトレーニング用音声データ510を正例のトレーニング用音声データとし、正しく認識されなかったトレーニング用音声データ510を負のトレーニング用音声データとする。
または、本開示のいくつかの実施例によれば、トレーニング用音声データ510がインタラクティブ意図を有するか否かに基づいてトレーニング用音声データ510にアノテーションを付与することができる。具体的には、対話型の意図を有するトレーニング用音声データ510は、正例のトレーニング用音声データとし、非対話型の意図を有するトレーニング用音声データ510は負例のトレーニング用音声データとするようにアノテーションが付与される。
または、本開示のいくつかの実施例において、トレーニング用音声データ510の指示する対話動作が正常に実行されたか否かに基づいてトレーニング用音声データ510にアノテーションを付与することもできる。具体的には、トレーニング用音声データ510の指示する対話動作が正常に実行されたトレーニング用音声データ510を正例のトレーニング用音声データとし、トレーニング用音声データ160の指示する対話動作が正常に実行されなかったトレーニング用音声データ510を負例のトレーニング用音声データとするようにアノテーションが付与される。
当業者には理解できるように、上述したアノテーション付与の方法は、ただ例示として示されるものに過ぎず、トレーニング用音声データ510のソース/意図種類への影響(正/負)によって、他の実施形態において、他のアノテーション付与の方法を利用することもでき、本開示は、これを限定するものではない。
このように、本開示のいくつかの実施例において、種類識別モデル130の構築時に、種類識別モデル130に入力されたトレーニング用音声データ510は、対話型の意図を示す正例のトレーニング用音声データ、又は、非対話型の意図を示す負例のトレーニング用音声データとしてアノテーションが付与される。例えば、トレーニング用音声データ510の語義が正しく認識されたか否か、トレーニング用音声データ510が対話型の意図を有するか否か、トレーニング用音声データ510の指示する対話動作が正しく実行されたか否かに基づいて、トレーニング用音声データに対しアノテーションを付与するようにしてもよい。このようにして、トレーニング用音声データ510のソースが、より柔軟で且つ多様とされ、トレーニング用の種類識別モデルの認識精度がより高くなる。
トレーニング用装置520は、アノテーションが付与されたトレーニング用音声データ510を用いて、種類識別モデル130を構築することができる。本開示のいくつかの実施例において、トレーニング装置520は、トレーニング用音声データ510の種類識別モデルの構築する精度の順次に、トレーニング用音声データ510を利用することにより、種類識別モデル130を構築することができる。具体的には、トレーニング用装置520は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも、種類識別モデルの構築精度が高い第2組のトレーニング用音声データとを特定する。まず、トレーニング用装置520は、第1組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築する。その後、トレーニング用装置520は、第2組のトレーニング用音声データの音響的特徴を用いて基礎的モデルを更新し、種類識別モデル130を得る。音響的特徴の抽出手順は、音響的特徴の抽出手順と同様であるので、簡潔のために、ここでは説明を繰り返さない。
説明のために、限定するためではない例を挙げると、トレーニング用音声データ510の語義が正しく認識されたか否か、およびトレーニング用音声データ510が示す対話動作が正しく実行されたか否かに応じて、アノテーションが付与されたトレーニング用音声データ510を用いて、基礎的モデルを構築し、そして、トレーニング用音声データ510が対話型の意図を有するか否かに応じて、基礎的モデルを更新することにより、前記タイプ認識モデル130を得ることができる。
当業者には理解できるように、上述の例は、本開示を限定するものではなく説明するためのものに過ぎず、種類識別モデル130の構築動作はより多くの段階に分割して(即ち、複数の基礎的モデルを構築して)実行されてもよい。例えば、まず、第1組のトレーニング用音声データを利用して第1の基礎的モデルを構築し、続いて、第2組のトレーニング用音声データを利用して第一基礎的モデルを更新して第2の基礎的モデルを構築し、それから、第N組のトレーニング用音声データを利用して、第N−1組の基礎的モデルを更新して種類識別型を構築するようにし、ただし、Nは、2より大きい整数である。
トレーニング用音声データ520を区別しない従来の構築方法と比較して、本開示の方法により、種類識別モデルの構築上でより高い精度を有するトレーニング用音声データ510を用いて、種類識別モデル130を最適化することで、種類識別モデル130を精度高く構築することができる。
選択的に、トレーニング用装置520は、トレーニング用音声データ510の種類識別モデルの構築精度に応じて、トレーニング用音声データ510を拡張し、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル130を構築してもよい。具体的には、トレーニング用装置520は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも種類識別モデルの構築精度の高い第2組のトレーニング用音声データとを特定し、そして、第2組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データを拡張する。その後、トレーニング装置520は、拡張されたトレーニング用音声データの音響的特徴を利用して、種類識別モデル130を構築する。音響的特徴の抽出処理は、音響的特徴の抽出処理と同様であり、簡潔のため、ここでは説明を繰り返さない。
説明のために、限定するためではない例を挙げると、トレーニング用装置520は、トレーニング用音声データ510が対話型の意図を有するか否かに応じてトレーニングするためのトレーニング用音声データ510の数を増加させることで、トレーニング用音声データ510を拡張し、そして、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル130を構築する。
第2組のトレーニング用音声データの数の増加は、様々な方法により行われでもよい。本開示のいくつかの実施例において、第2組のトレーニング用音声データ全体を複数回コピーするようにしてもよい。または、第2組のトレーニング用音声データのトレーニング用音声データを異なる割合で複製するようにしてもよい。他の実施例において、さらに他の任意の方式を採用して第2組のトレーニング用音声データの数を増加することができ、本開示は、これを限定するものではない。
当業者には理解できるように、上記種類識別モデル130の構築案同士が互いに組み合わせられてもよい。例えば、まず、トレーニング用音声データ510の種類識別モデルの構築精度に基づいて、トレーニング用音声データ510を拡張し、続いて、拡張されたトレーニング用音声データの種類識別モデルの構築精度に基づいて、拡張されたトレーニング用音声データを利用して複数の基礎的モデルを構築し、最終的に、種類識別モデル130を構築することができる。
このようにして、トレーニング用装置520は、トレーニング用音声データ510が種類識別モデルの構築精度上で差異を有することを考慮して、レーニング用音声データの全体に対する種類識別モデルの構築精度の高いトレーニング用音声データの510の割合を向上させることにより、構築される種類識別モデル130の精度を向上させることができる。
図6は、本開示の実施例に係る音声対話装置600の概略ブロック図である。装置600は、図1の演算装置120に含まれる。装置600は、受信した音声データ110から、音声データ110の短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュール610と、音響的特徴を、トレーニング用音声データ510の音響的特徴に基づいて構築された種類識別モデル130に入力することにより、音声データ110が示す意図の種類を決定するように構成された種類識別モジュール620であって、意図の種類は、対話型と非対話型とを有するモジュールと、意図の種類が対話型と決定されたことに応じて、音声データ110の指示する対話動作を実行するように構成された対話実行モジュール630と備える。
本開示のいくつかの実施例において、装置600は、トレーニング用音声データ510に対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するように構成されたアノテーションモジュールと、アノテーションが付与されたトレーニング用音声データを用いることにより、種類識別モデル130を構築するように構成された種類識別モデル構築モジュールをさらに備える。
本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ510の語義が正しく認識されたことと、トレーニング用音声データ510は対話型の意図を示すこと、トレーニング用音声データ510の指示する対話動作は正常に実行されたことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ510に対して、正例のトレーニング用音声データとしてアノテーションを付与するように構成された、正例のトレーニング用音声データアノテーションモジュールをさらに備える。
本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ510の語義が正しく認識されないことと、トレーニング用音声データ510は非対話型の意図を示すことと、トレーニング用音声データ510の指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ510に対して、負例のトレーニング用音声データとしてアノテーションを付与するように構成された負例のトレーニング用音声データアノテーションモジュールをさらに備える。
本発明のいくつかの実施例において、装置600は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも高い精度で種類識別モデル130を構築可能な第2組のトレーニング用音声データと、を決定するように構成された第1のトレーニング用データ認識モジュールと、第1組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築するように構成された基礎的モデル構築モジュールと、第2組のトレーニング用音声データの音響的特徴を利用して前記基礎的モデルを更新して、種類識別モデル130を得るように構成された第2の種類識別モデル構築モジュールと、をさらに備える。
本発明のいくつかの実施例において、装置600は、トレーニング用音声データ510から、第1組のトレーニング用音声データと、第1組のトレーニング用音声データよりも、よりも高い精度で種類識別モデル130を構築可能な第2組のトレーニング用音声データと、を決定するように構成された第2のトレーニング用データ識別モジュールと、第2組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データ510を拡張するように構成されたトレーニング用音声データ拡張モジュールと、拡張されたトレーニング用音声データ510の音響的特徴を利用して種類識別モデル130を構築するように構成された第3の種類識別モデル構築モジュールと、をさらに備える。
本開示のいくつかの実施例において、装置600は、ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データ110を受信するように構成されるタイマ起動モジュールと、モニタリング用のタイマがタイムアウトとなると確定したことに応答し、音声データ110の受信を停止するように構成されるタイマ傍受モジュールをさらに備える。
本開示のいくつかの実施例において、種類識別モデル130は、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであり、CLDNNモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む。
本開示のいくつかの実施例において、音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む。
図7は、本開示の一実施形態に係る電子デバイス700の概略構成を示すブロック図である。電子デバイス700は、図1の演算装置120及び図5のトレーニング用装置520を実現するために利用することができる。同図に示すように、電子デバイス700は、ROM(Read Only Memory)702に記憶されているコンピュータプログラム指令、または記憶部708からRAM (Random Access Memory)703にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部701を備えている。また、RAM703には、装置700の動作に必要な各種プログラムやデータが記憶されている。演算部701、ROM702、およびRAM703は、バス704を介して相互に接続されている。バス704には、入出力(I/O)インタフェース705も接続されている。
I/Oインタフェース705には、例えば、キーボード、マウスなどの入力部706と、例えば、各種のディスプレイ、スピーカなどの出力部707と、例えば、磁気ディスク、光ディスクなどの記憶部708と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部709とを含むデバイス700の複数の部分が接続されている。通信部709は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データのやり取りを行うに用いられる。
演算部701は、様々な処理や演算機能を有する汎用的及び/又は専用的な処理コンポーネントであってよい。演算部701の例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、各種専用のAI(Asymmetric Intellite)演算チップ、各種動作機械学習モデルアルゴリズムの演算部、DSP(Digital Signal Processor)、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部701は、上述した手順200等の各方法、処理を実行する。例えば、実施形態において、手順200は、記憶部708等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ROM702や通信部709を介して電子デバイス700にロードしたり、電子デバイス700にインストールしたりすることも可能である。コンピュータプログラムをRAM703にロードして演算装置701で実行することにより、上述した手順200の各ステップを実行することができる。また、他の実施形態において、演算部701は、例えばファームウェアを利用するなど、他の任意の方法により手順200を実行するように構成されてもよい。
なお、上述した各機能の少なくとも一部は、1または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、オンチップシステムのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)などを含む。
本発明の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD−ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて1つの実施の形態としてもよい。逆に、1つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。

Claims (20)

  1. 音声対話方法であって、
    受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、
    前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するステップであって、前記意図の種類は、対話型と非対話型とを有するステップと、
    前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するステップと、
    を含む、音声対話方法。
  2. 前記トレーニング用音声データに対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するステップと、
    アノテーションが付与された前記トレーニング用音声データを用いることにより、前記種類識別モデルを構築するステップと、
    をさらに含む、請求項1に記載の方法。
  3. 前記トレーニング用音声データに対しアノテーションを付与するステップは、
    前記トレーニング用音声データの語義が正しく認識されたことと、
    前記トレーニング用音声データは対話型の意図を示すことと、
    前記トレーニング用音声データの指示する対話動作は正常に実行されたことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記正例のトレーニング用音声データとしてアノテーションを付与するステップを含む、請求項2に記載の方法。
  4. 前記トレーニング用音声データに対しアノテーションを付与するステップは、
    前記トレーニング用音声データの語義が正しく認識されないことと、
    前記トレーニング用音声データは非対話型の意図を示すことと、
    前記トレーニング用音声データの指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記負例のトレーニング用音声データとしてアノテーションを付与するステップを含む、請求項2に記載の方法。
  5. 前記トレーニング用音声データから、第1組のトレーニング用音声データと、前記第1組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第2組のトレーニング用音声データと、を決定するステップと、
    前記第1組のトレーニング用音声データの前記音響的特徴を利用して基礎的モデルを構築するステップと、
    前記第2組のトレーニング用音声データの前記音響的特徴を利用して前記基礎的モデルを更新して、前記種類識別モデルを得るステップと、
    をさらに含む、請求項1に記載の方法。
  6. 前記トレーニング用音声データから、第1組のトレーニング用音声データと、前記第1組のトレーニング用音声データよりも、前記第1組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第2組のトレーニング用音声データと、を決定するステップと、
    前記第2組のトレーニング用音声データの数を増やすことにより、前記トレーニング用音声データを拡張するステップと、
    拡張された前記トレーニング用音声データの前記音響的特徴を利用して前記種類識別モデルを構築するステップと、
    をさらに含む請求項1に記載の方法。
  7. ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データを受信するステップと、
    前記モニタリング用のタイマがタイムアウトとなると確定したことに応答し、前記音声データの受信を停止するステップと、
    をさらに含む、請求項1に記載の方法。
  8. 前記種類識別モデルは、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであり、前記CLDNNモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む、請求項1に記載の方法。
  9. 前記音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む、請求項1に記載の方法。
  10. 音声対話装置であって、
    受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュールと、
    前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するように構成された種類識別モジュールであって、前記意図の種類は、対話型と非対話型とを有するモジュールと、
    前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するように構成された対話実行モジュールと、
    を備える、音声対話装置。
  11. 前記トレーニング用音声データに対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するように構成されたアノテーションモジュールと、
    アノテーションが付与された前記トレーニング用音声データを用いることにより、前記種類識別モデルを構築するように構成された種類識別モデル構築モジュールと、
    をさらに備える、請求項10に記載の装置。
  12. 前記アノテーションモジュールは、
    前記トレーニング用音声データの語義が正しく認識されたことと、
    前記トレーニング用音声データは対話型の意図を示すことと、
    前記トレーニング用音声データの指示する対話動作は正常に実行されたことと、
    のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記正例のトレーニング用音声データとしてアノテーションを付与するように構成された、正例のトレーニング用音声データアノテーションモジュールをさらに備える、請求項11に記載の装置。
  13. 前記アノテーションモジュールは、
    前記トレーニング用音声データの語義が正しく認識されないことと、
    前記トレーニング用音声データは非対話型の意図を示すことと、
    前記トレーニング用音声データの指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記負例のトレーニング用音声データとしてアノテーションを付与するように構成された負例のトレーニング用音声データアノテーションモジュールをさらに備える、請求項11に記載の装置。
  14. 前記トレーニング用音声データから、第1組のトレーニング用音声データと、前記第1組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第2組のトレーニング用音声データと、を決定するように構成された第1のトレーニング用データ認識モジュールと、
    前記第1組のトレーニング用音声データの前記音響的特徴を利用して基礎的モデルを構築するように構成された基礎的モデル構築モジュールと、
    前記第2組のトレーニング用音声データの前記音響的特徴を利用して前記基礎的モデルを更新して、前記種類識別モデルを得るように構成された第2の種類識別モデル構築モジュールと、
    をさらに備える、請求項10に記載の装置。
  15. 前記トレーニング用音声データから、第1組のトレーニング用音声データと、前記第1組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第2組のトレーニング用音声データと、を決定するように構成された第2のトレーニング用データ識別モジュールと、
    前記第2組のトレーニング用音声データの数を増やすことにより、前記トレーニング用音声データを拡張するように構成されたトレーニング用音声データ拡張モジュールと、
    拡張された前記トレーニング用音声データの前記音響的特徴を利用して前記種類識別モデルを構築するように構成された第3の種類識別モデル構築モジュールと、
    をさらに備える、請求項10に記載の装置。
  16. ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データを受信するように構成されるタイマ起動モジュールと、
    前記モニタリング用のタイマがタイムアウトとなると確定したことに応答し、前記音声データの受信を停止するように構成されるタイマ傍受モジュールと、
    をさらに備える、請求項10に記載の装置。
  17. 前記種類識別モデルは、畳み込み長・短期記憶ディープニューラルネットワーク(CLDNN)モデルであり、前記CLDNNモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む、請求項10に記載の装置。
  18. 前記音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む、請求項10に記載の装置。
  19. 電子デバイスであって、
    1または複数のプロセッサと、
    1つ又は複数のプログラムを記憶するメモリと、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサに実行されると、前記電子デバイスに請求項1〜9のいずれかに記載の方法を実現させる、電子デバイス。
  20. プロセッサにより実行されることにより、請求項1〜9のいずれか1項に記載の方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2020095874A 2019-11-25 2020-06-02 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 Active JP7208951B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911168794.1 2019-11-25
CN201911168794.1A CN110992940B (zh) 2019-11-25 2019-11-25 语音交互的方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021086144A true JP2021086144A (ja) 2021-06-03
JP7208951B2 JP7208951B2 (ja) 2023-01-19

Family

ID=70086736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020095874A Active JP7208951B2 (ja) 2019-11-25 2020-06-02 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US11250854B2 (ja)
JP (1) JP7208951B2 (ja)
CN (1) CN110992940B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566145A (zh) * 2022-03-04 2022-05-31 河南云迹智能技术有限公司 一种数据交互方法、系统和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516966A (zh) * 2021-06-24 2021-10-19 肇庆小鹏新能源投资有限公司 一种语音识别缺陷检测方法和装置
CN114550706B (zh) * 2022-02-21 2024-06-18 苏州市职业大学 基于深度学习的智慧校园语音识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device
JP2018106216A (ja) * 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム
JP2018169494A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 発話意図推定装置および発話意図推定方法
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US10403269B2 (en) * 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection
US10129510B2 (en) * 2016-02-18 2018-11-13 Samsung Electronics Co., Ltd. Initiating human-machine interaction based on visual attention
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106649694B (zh) * 2016-12-19 2020-05-26 北京云知声信息技术有限公司 语音交互中确定用户意图的方法及装置
CN107808004B (zh) * 2017-11-15 2021-02-26 北京百度网讯科技有限公司 模型训练方法和系统、服务器、存储介质
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108564954B (zh) * 2018-03-19 2020-01-10 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
US10979242B2 (en) * 2018-06-05 2021-04-13 Sap Se Intelligent personal assistant controller where a voice command specifies a target appliance based on a confidence score without requiring uttering of a wake-word
CN109767759B (zh) * 2019-02-14 2020-12-22 重庆邮电大学 一种应用到端到端语音识别的cldnn结构的建立方法
CN109671435B (zh) * 2019-02-21 2020-12-25 三星电子(中国)研发中心 用于唤醒智能设备的方法和装置
CN110166391B (zh) * 2019-06-13 2021-07-02 电子科技大学 脉冲噪声下基于深度学习的基带预编码msk信号解调方法
CN110390108B (zh) * 2019-07-29 2023-11-21 中国工商银行股份有限公司 基于深度强化学习的任务型交互方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device
JP2018106216A (ja) * 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム
JP2018169494A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 発話意図推定装置および発話意図推定方法
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZITIAN ZHAO ET AL.: "A lighten CNN-LSTM model for speaker verification on embedded devices", FUTURE GENERATION COMPUTER SYSTEMS, vol. 100, JPN6021046712, 23 May 2019 (2019-05-23), pages 751 - 758, ISSN: 0004812448 *
井本和範,中居友弘: "深層学習を用いて自動化した半導体製造プロセスの欠陥分類システム", 東芝レビュー, vol. 第74巻,第5号, JPN6021046711, September 2019 (2019-09-01), pages 13 - 16, ISSN: 0004812447 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566145A (zh) * 2022-03-04 2022-05-31 河南云迹智能技术有限公司 一种数据交互方法、系统和介质

Also Published As

Publication number Publication date
CN110992940B (zh) 2021-06-15
US20210158816A1 (en) 2021-05-27
CN110992940A (zh) 2020-04-10
US11250854B2 (en) 2022-02-15
JP7208951B2 (ja) 2023-01-19

Similar Documents

Publication Publication Date Title
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
JP2021086144A (ja) 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN106688034B (zh) 具有情感内容的文字至语音转换
US20170140750A1 (en) Method and device for speech recognition
WO2017084360A1 (zh) 一种用于语音识别方法及系统
CN103366740B (zh) 语音命令识别方法及装置
CN105096941A (zh) 语音识别方法以及装置
CN108694940A (zh) 一种语音识别方法、装置及电子设备
CN108091323B (zh) 用于自语音中识别情感的方法与装置
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN105788596A (zh) 一种语音识别电视控制方法及系统
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
Müller et al. Contextual invariant-integration features for improved speaker-independent speech recognition
CN113488024A (zh) 一种基于语义识别的电话打断识别方法和系统
KR20210078133A (ko) 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
CN104952446A (zh) 基于语音交互的数字楼盘展示系统
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
US20110313772A1 (en) System and method for unit selection text-to-speech using a modified viterbi approach
CN113012683A (zh) 语音识别方法及装置、设备、计算机可读存储介质
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
CN111145748A (zh) 音频识别置信度确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230106

R150 Certificate of patent or registration of utility model

Ref document number: 7208951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150