JP6711343B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP6711343B2
JP6711343B2 JP2017233310A JP2017233310A JP6711343B2 JP 6711343 B2 JP6711343 B2 JP 6711343B2 JP 2017233310 A JP2017233310 A JP 2017233310A JP 2017233310 A JP2017233310 A JP 2017233310A JP 6711343 B2 JP6711343 B2 JP 6711343B2
Authority
JP
Japan
Prior art keywords
word
unknown
storage
voice
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017233310A
Other languages
English (en)
Other versions
JP2019101285A (ja
Inventor
寛基 富田
寛基 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017233310A priority Critical patent/JP6711343B2/ja
Priority to US16/193,163 priority patent/US20190172445A1/en
Priority to EP18207016.9A priority patent/EP3496092B1/en
Priority to CN201811450539.1A priority patent/CN109887495B/zh
Publication of JP2019101285A publication Critical patent/JP2019101285A/ja
Application granted granted Critical
Publication of JP6711343B2 publication Critical patent/JP6711343B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。
音声認識のシステムにおいて、音声単語辞書に登録されていない未知語は認識することができないため、何度同じ内容を入力しても、その未知語が上記辞書に登録されない限り、システム側では同じ内容であることを認識できない。
こうした状況に対する認識率を向上させるべく、連続した単語認識と音素あるいは音節のサブワードの併用で未知語部分を検出して上記辞書に登録するようにした技術が提案されている。(例えば、特許文献1)
特開2004−170765号公報
上記特許文献に記載された技術は、1度の入力音声に際して実施される処理であり、繰返して入力されるような未知語の音声には対処しておらず、そのような場合の認識率を向上させるものでもない。
本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能な音声処理装置、音声処理方法及びプログラムを提供することにある。
本発明の第1の態様の音声処理装置は、既知語を記憶した第1の記憶部と、上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、上記第1の記憶部への記憶制御を実行する記憶制御手段と、を備え、上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する。
本発明の第2の態様の音声処理装置は、既知語を記憶した第1の記憶部と、第2の記憶部と、上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、を備え、上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する。
本発明によれば、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能となる。
本発明の一実施形態に係る音声処理回路の機能構成を示すブロック図。 同実施形態に係る音声認識の処理内容を示すフローチャート。 同実施形態に係る未知語の認識結果の取り纏めを段階的に示す図。
以下、本発明をペットロボットに搭載される音声処理回路に適用した場合の一実施形態について、図面を参照して説明する。
図1は、本実施形態に係る音声処理回路10の機能構成を抽出して示すブロック図である。同図において、マイクロホン11で得たアナログの音声信号を、音声入力部12が増幅、A/D変換等の処理を施してデジタルデータ化し、得た音声データを音声認識部13へ出力する。
音声認識部13は、例えばDP(Dynamic Programming:動的計画法)マッチングにより音素及び音節を抽出し、音声単語辞書部14を参照して、音声認識を実行する。認識結果としての音素または音節に相当する文字データが、この音声認識処理を使用しているアプリケーションプログラムでの入力音声に対応するデータとして適宜出力される。
上記音声単語辞書部14は、既知語の音声の音素または音節とそれに対応した文字データを記憶する既知語記憶部14Aと、未知語の音声の音素または音節とそれに対応した文字データを記憶する未知語記憶部14Bとを有する。
なお、上記音声認識部13は、例えばペットロボットにおけるOS(オペレーティングシステム)に搭載された音声認識機能を回路ブロックとして表現したものであり、実際には当該ロボットのCPUが当該OSを実行することで実現されるが、上記CPUとは独立した専用のLSIによるハードウェア回路として設けても良い。
次に上記実施形態の動作について説明する。
図2は、主として音声認識部13が実行する、音声入力に対する認識処理の内容を示すフローチャートである。処理当初に音声認識部13は、マイクロホン11、音声入力部12を介して音声データの入力があるか否かを繰返し判断することで(ステップS101)、音声データが入力されるのを待機する。
なお、この音声データの入力に際しては、本音声処理回路10を搭載するペットロボットが備えるカメラ部(図示せず)で得る画像データからの人物抽出処理や、上記マイクロホン11を複数のアレイ構造とするなどして、話者の方向を推定し、当該ペットロボットに対して話しかけられた音声であることを判断するものとしても良い。
そして、音声入力部12から音声データが入力されたと判断した時点で(ステップS101のYes)、音声認識部13は入力された音声データに対する認識処理を実行する(ステップS102)。
音声認識部13は、音声単語辞書部14の既知語記憶部14Aを参照した認識処理の結果、認識により得た結果中に未知語が含まれているか否かを判断する(ステップS103)。
この未知語の検出に関しては、既存手法である、連続単語認識と音素あるいは音節のサブワード認識により、該当する部分の尤度がサブワード認識の方が高い場合を未知語として認識する。
認識結果中に未知語が含まれておらず、すべて既知語として認識できると判断した場合(ステップS103のNo)、音声認識部13はそれら既知語による認識結果の文字データに対応した、規定の処理を実行した上で(ステップS104)、次の音声入力に備えて、上記ステップS101からの処理に戻る。
また上記ステップS103において、認識結果中に少なくとも1つの未知語が含まれていたと判断した場合(ステップS103のYes)、音声認識部13は未知語部分の音素あるいは音節の文字データを抽出して音声単語辞書部14の未知語記憶部14Bに格納する(ステップS105)。
ここで音声認識部13は、格納する未知語に対して、その時点で未知語記憶部14Bに既に格納されている他の未知語のクラスタとの特徴量の距離をそれぞれ算出し、特徴量が所定の距離以内となるクラスタがあるか否かにより、既にあるクラスタに分類することが可能であるか否かを判断する(ステップS106)。
また、既にあるクラスタに分類することの可否については、他に、サブワードの認識結果同士の距離、あるいは各フレームの各音素尤度の最尤音素列のスコア列同士の距離が、予め設定した閾値以下となるか否かにより判断しても良い。
特徴量が所定の距離以内となるクラスタがあり、既にあるクラスタに分類することが可能であると判断した場合(ステップS106のYes)、音声認識部13は最も特徴量の距離が近いクラスタ内に、未知語の音素または音節の文字データを格納する(ステップS107)。
また上記ステップS106において、特徴量が所定の距離以内となるクラスタが存在せず、既にあるクラスタに分類することができないと判断した場合(ステップS106のNo)、音声認識部13は新しいクラスタを未知語記憶部14B内に生成した上で、その生成したクラスタ内に未知語の音素または音節の文字データを格納する(ステップS108)。
その後に音声認識部13は、音声単語辞書部14の未知語記憶部14B内に、複数の未知語を格納したクラスタが存在するかどうかを判断する(ステップS109)。
未知語記憶部14B内に複数の未知語を格納したクラスタが存在しない場合(ステップS109のNo)、音声認識部13は次の音声入力に備えて、上記ステップS101からの処理に戻る。
また上記ステップS109において、未知語記憶部14B内に複数の未知語を格納したクラスタが存在する場合(ステップS109のYes)、音声認識部13は未知語記憶部14Bの中で該当するクラスタ内の未知語の音声の文字データに対し、読みの単位で音声認識を実行する(ステップS110)。
音声認識部13は、当該クラスタの未知語音声の読みとして、既知語記憶部14Aに記憶する(ステップS111)。
既知語記憶部14Aへの未知語の登録を行なった後、音声認識部13は未知語記憶部14Bから、既知語記憶部14Aへの登録を行なった未知語の音声に関するデータを削除する(ステップS112)。その後、音声認識部13は次の音声入力に備えて、上記ステップS101からの処理に戻る。
既知語記憶部14Aに未知語を登録して以降、(元)未知語の音声が入力された場合、音声認識部13は通常の音声認識による処理と同様に、既知語記憶部14Aへの登録によって記憶されている上記既知語の読みの尤度を計算して他の単語との比較することで、既知語として登録済の(元)未知語が音声処理回路10に対して発話されたことが検知できる。
このように、音声認識の結果、未知語として認識された内容を随時クラスタ化して蓄積記憶し、その記憶内容を取り纏めることで、他に比して著しく特徴量の距離が近いと判断できる未知語は既知語として登録することにより、その後に入力される似通った元未知語の音声認識での認識率を向上できる。
なお、上記実施形態において、未知語記憶部14B内に未知語が全く記憶されていない状態において、最初の未知語を格納する場合は、クラスタを生成せずに格納し、次に抽出した未知語の特徴量が、最初に格納した未知語の特徴量と類似な場合、既知語として既知語記憶部14Aへ登録し、類似でない場合、それぞれのクラスタを生成してもよい。
また、上記ステップS109において、音声認識部13は、音声単語辞書部14の未知語記憶部14B内に、複数の未知語を格納したクラスタが存在するかどうかを判断したが、音声認識部13は、音声単語辞書部14の未知語記憶部14B内に、予め設定した閾値N以上の数の未知語を格納したクラスタが存在するかを判断し、未知語記憶部14B内に予め設定した閾値N以上の数の未知語を格納したクラスタが存在する場合、上記ステップS110において、音声認識部13は未知語記憶部14Bの中で該当するクラスタ内の未知語の音声の文字データに対し、読みの単位で音声認識を実行してもよい。
図3(A)は、編集距離が「1」となる音節「コタロウ」を含む認識結果8個を示すもので、同編集距離以内を同一クラスタとする場合に、すべて同じクラスタとして取扱われるものとなる。
図3(B)は、上記図3(A)の認識結果8個を同じ読み毎に取り纏めた結果である。最も出現頻度が高い「コタロウ」が4個、2番目の「コトロウ」が2個となっている。
上記ステップS111において、出現頻度が1位の読みのみを登録する場合(M=1)には、「コタロウ」のみを既知語記憶部14Aに登録する。また、出現頻度が2位までの読みを登録する場合(M=2)には、「コタロウ」「コトロウ」の双方を既知語記憶部14Aに登録する。
図3(C)は、元未知語としての「コタロウ」「コトロウ」が共に既知語記憶部14Aに「登録済未知語A」として記憶されている状態を例示する図である。
なお、音声認識部13が既知語記憶部14Aを参照し、音声認識の結果として出力する文字データとしては、未知語記憶部14Bに入力して蓄積記憶した際の認識結果「コタロウ」「コトロウ」を区別して文字データ化して出力するものとしても良い。
一方で音声処理回路10のシステムの設定によっては、未知語記憶部14Bの同一のクラスタに記憶した内容に関しては、その最上位の文字データ、例えば「コタロウ」を代表の文字データとして取扱うものとし、既知語記憶部14Aに記憶される登録済未知語として最も距離の近い単語が「コトロウ」であっても、音声認識部13から後段の回路に、認識結果が「コタロウ」であるとして出力するものとしても良い。
また、上記ステップS109において、音声認識部13は、予め設定された時刻、例えばこのペットロボットが確実に未使用状態となるであろう真夜中の時刻において、音声単語辞書部14の未知語記憶部14B内に、複数の未知語を格納したクラスタが存在するかを判断し、未知語記憶部14B内に複数の未知語を格納したクラスタが存在する場合、予め設定された時刻において、上記ステップS110〜ステップS112の処理を行なってもよい。
以上詳述した如く本実施形態によれば、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能となる。
また、上記実施形態では、ある程度特徴量の距離が近いと判断して同一のクラスタに蓄積して記憶する未知語の総数と、予め設定した時刻の少なくとも一方に該当するタイミングで、入力頻度の高い一部の未知語を抽出して既知語として登録し直すよう処理を実行するものとしたが、このように定量的あるいは定時的に処理を実行することで、音声処理回路10の使用状況に応じて既知語記憶部14Aの内容が更新記憶されるため、この音声処理回路10を搭載した装置を使用するユーザに最適化した音声認識環境を構築できる。
また、上記実施形態では、ある程度特徴量の距離が近いと判断して蓄積して記憶するクラスタ内での出現頻度の順位に応じて、既知語として登録する未知語を選択するものとしたが、これに加えて、既知語として選択する未知語の出現頻度の絶対値も設定できるようにしても良い。
このように、未知語から選択して既知語として登録する際の選択条件を任意に設定可能とすることで、ユーザが自身の使用環境に合わせて最適化した音声認識環境を構築できる。
なお、上記実施形態では説明しなかったが、音声単語辞書部14において、複数の話者毎の音声パターンデータを予め記憶可能とし、音声認識部13が実行する音声認識処理時には話者毎の音声パターンデータを用いて話者認識も合わせて行ない、未知語のクラスタを話者毎に分けて記憶するものとすれば、未知語を蓄積して記憶させた結果の中から既知語として登録する際の認識率をより向上させることができる。
その他、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[請求項1]
既知語の音声情報を記憶した第1の記憶部と、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、音声処理装置。
[請求項2]
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報を順次類似度に応じて分類して第2の記憶部に蓄積記憶し、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項1記載の音声処理装置。
[請求項3]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報を所定の条件に応じて、該当する音声情報を既知語として上記第2の記憶部に記憶する、請求項1記載の音声処理装置。
[請求項4]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の総数に応じて、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項5]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の数の絶対値、及び上位数の少なくとも一方に応じて、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項6]
上記記憶制御手段は、予め設定した時刻において、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項7]
上記音声認識手段は、入力する音声情報から話者を認識し、
上記記憶制御手段は、上記音声認識手段で認識した話者に応じて未知語の音声情報を蓄積記憶する、
請求項1乃至6いずれか記載の音声処理装置。
[請求項8]
既知語の音声情報を記憶した第1の記憶部を備えた音声処理装置の音声処理方法であって、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識工程と、
上記音声認識工程で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶工程を有し、
上記記憶工程は、上記音声認識工程で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、音声処理方法。
[請求項9]
既知語の音声情報を記憶した第1の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、プログラム。
10…音声処理回路
11…マイクロホン
12…音声入力部
13…音声認識部
14…音声単語辞書部
14A…既知語記憶部
14B…未知語記憶部

Claims (10)

  1. 既知語を記憶した第1の記憶部と、
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
    上記第1の記憶部への記憶制御を実行する記憶制御手段と、を備え、
    上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理装置。
  2. 既知語を記憶した第1の記憶部と、
    第2の記憶部
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
    上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、を備え、
    上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理装置。
  3. 上記記憶制御手段は、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の総数が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
  4. 上記記憶制御手段は、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の絶対値、及び上位数の少なくとも一方が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
  5. 上記記憶制御手段は、予め設定した時刻において、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
  6. 上記音声認識手段は、入力する音声情報から話者を認識し、
    上記記憶制御手段は、上記音声認識手段で認識した話者に応じて、抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶する、
    請求項2乃至5いずれか一項記載の音声処理装置。
  7. 既知語を記憶した第1の記憶部を備えた音声処理装置の音声処理方法であって、
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
    上記第1の記憶部への記憶制御を実行する記憶制御工程を有し、
    上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理方法。
  8. 既知語を記憶した第1の記憶部と第2の記憶部とを備えた音声処理装置の音声処理方法であって、
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
    上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御工程と、を有し、
    上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理方法。
  9. 既知語を記憶した第1の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
    上記第1の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
    上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、プログラム。
  10. 既知語を記憶した第1の記憶部と第2の記憶部とを備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
    上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
    上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
    上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、プログラム。
JP2017233310A 2017-12-05 2017-12-05 音声処理装置、音声処理方法及びプログラム Active JP6711343B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017233310A JP6711343B2 (ja) 2017-12-05 2017-12-05 音声処理装置、音声処理方法及びプログラム
US16/193,163 US20190172445A1 (en) 2017-12-05 2018-11-16 Voice processing apparatus
EP18207016.9A EP3496092B1 (en) 2017-12-05 2018-11-19 Voice processing apparatus, voice processing method and program
CN201811450539.1A CN109887495B (zh) 2017-12-05 2018-11-29 声音处理装置、声音处理方法及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017233310A JP6711343B2 (ja) 2017-12-05 2017-12-05 音声処理装置、音声処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019101285A JP2019101285A (ja) 2019-06-24
JP6711343B2 true JP6711343B2 (ja) 2020-06-17

Family

ID=64362423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017233310A Active JP6711343B2 (ja) 2017-12-05 2017-12-05 音声処理装置、音声処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20190172445A1 (ja)
EP (1) EP3496092B1 (ja)
JP (1) JP6711343B2 (ja)
CN (1) CN109887495B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
CN101794281A (zh) * 2009-02-04 2010-08-04 日电(中国)有限公司 用于对未知词进行语义分类的系统和方法
DE112010006037B4 (de) * 2010-11-30 2019-03-07 Mitsubishi Electric Corp. Spracherkennungsvorrichtung und Navigationssystem
US9818400B2 (en) * 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9607618B2 (en) * 2014-12-16 2017-03-28 Nice-Systems Ltd Out of vocabulary pattern learning
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스

Also Published As

Publication number Publication date
CN109887495B (zh) 2023-04-07
JP2019101285A (ja) 2019-06-24
US20190172445A1 (en) 2019-06-06
EP3496092A1 (en) 2019-06-12
EP3496092B1 (en) 2020-12-23
CN109887495A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
JP6596376B2 (ja) 話者識別方法及び話者識別装置
JP2982870B2 (ja) 話者識別方法および話者認識装置
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
CN112634867A (zh) 模型训练方法、方言识别方法、装置、服务器及存储介质
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US20200135211A1 (en) Information processing method, information processing device, and recording medium
KR102019470B1 (ko) 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2016143050A (ja) 音声認識装置および音声認識方法
JP7291099B2 (ja) 音声認識方法及び装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP2005534065A (ja) マンマシンインタフェースユニットの動作及び/又は制御方法
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JPH04324499A (ja) 音声認識装置
WO2023079815A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
JP3841342B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200511

R150 Certificate of patent or registration of utility model

Ref document number: 6711343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150