JP2006343642A - 音声認識方法、音声認識装置、プログラム、記録媒体 - Google Patents

音声認識方法、音声認識装置、プログラム、記録媒体 Download PDF

Info

Publication number
JP2006343642A
JP2006343642A JP2005170826A JP2005170826A JP2006343642A JP 2006343642 A JP2006343642 A JP 2006343642A JP 2005170826 A JP2005170826 A JP 2005170826A JP 2005170826 A JP2005170826 A JP 2005170826A JP 2006343642 A JP2006343642 A JP 2006343642A
Authority
JP
Japan
Prior art keywords
voice
section
signal
transmission
reception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005170826A
Other languages
English (en)
Inventor
Satoru Kobashigawa
哲 小橋川
Atsunori Ogawa
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005170826A priority Critical patent/JP2006343642A/ja
Publication of JP2006343642A publication Critical patent/JP2006343642A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】クロストークが起きがちな電話による会話の音声認識率を向上する。
【解決手段】
受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、送信信号の音声区間を検出する送話音声区間検出過程と、側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理し、送話音声区間では同時に受話音声区間でなく、受話音声区間では同時に送話音声区間でないことを判定する音声区間情報管理過程と、この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、抽出された音声信号を音声認識処理する音声認識処理過程とを含む。
【選択図】図1

Description

本発明は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号とを別々に音声認識するための音声認識方法、音声認識装置、音声認識プログラム、このプログラムを記録した記録媒体に関する。
図3に示すように電話機19とハンドセット18の間の回線から、ハンドセット18のマイク部11に接続した送話信号に相当する回路と、ハンドセット18のスピーカ部12に接続した受話信号に相当する回線を分岐する分岐装置20(例えば特許文献1)があり、この分岐装置20の送話端子及び受話端子をそれぞれ分けて送話信号と受話信号とを別々に音声認識する音声認識装置110は容易に考えられる。この従来の分岐装置20により送話信号のみを取り出すことは可能である。通常の電話機19で電話機19の内部の側音回路15で送話信号が受話信号に回り込んだ側音が受話信号に重畳することになり、受話信号のみを取り出すのは難しい課題があるが、これについてはエコーキャンセラや種々の音源分離技術を用いることで受話信号から側音信号をある程度除去することができる。
特開昭60−223370号公報
ところで、送話側の話者と受話側の話者が同時に発言するクロストーク状態の場合、それぞれの発話は通常の発話とは異なり乱れた発話となる。音声認識方法では、この乱れた発話が誤認識の要因となり、発話全体に対する誤認識性能の劣化を招く。特にクロストークの場面で、途中から割り込んだ方の発話を認識する場合は、文頭が誤認識となるため、前の単語や音素に依存した尤度を用いる一般的な音声認識処理方式では、クロストーク外の発話にまで悪影響を及ぼしてしまうおそれがある。また、クロストーク状態の場合、受話側の信号には、エコーキャンセラ等で除去しきれない側音の消し残り信号が重畳しているため、この消し残り信号のため、認識性能が劣化する可能性が高い。
この発明による音声認識方法は送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識方法において、受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、送話信号の音声区間を検出する送話音声区間検出過程と、側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理する音声区間情報管理過程と、この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、抽出された音声信号を音声認識処理する音声認識処理過程とを含むことを特徴とする。
更に、この発明による音声認識方法は音声区間情報管理過程で送話音声区間検出過程と、受話音声区間検出過程で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定過程と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出区間決定過程とを含むことを特徴とするものである。
従来では送話と受話が共に発話状態となるクロストーク状態の音声も認識処理に送り込まれてしまったのに対して、この発明によれば送話と受話毎に音声区間の検出を行い、その片方のみが発話状態の区間を検出して音声認識処理を行うことにより、通常の発話に近い信号の音声区間が得られ、発話全体として高い認識性能が得られる。特に、送話信号に対して認識処理を行う場合、側音信号と送話信号の間の時間遅れは比較的少なく、送話音声が無い区間は、受信信号にあまり側音信号が重畳していないため、この区間の送話信号の音声認識性能が高く、認識対象としての区間を絞ることで、送話信号全体の認識性能改善が得られる。また、信頼性の低いクロストーク区間の信号を認識処理しないことで、全体の認識処理における計算量の削減やメモリ使用量を低減できる利点が得られる。
この発明による音声認識方法及び音声認識装置はハードウェアによって実現し、実行することができる。しかしながら、それより簡素に実現するにはコンピュータにこの発明による音声認識方法で提案する手順に従って音声認識処理を実行させる形態が最良の実施形態である。
コンピュータによりこの発明による音声認識方法を実行させるには、コンピュータに受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧部と、送話信号の音声区間を検出する送話音声区間検出部と、側音抑圧部で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出部と、送話音声区間検出部及び受話音声区間検出部で検出した各音声区間情報を管理する音声区間情報管理部と、この音声区間情報管理部で管理されている音声区間情報に従って各音声区間の音声信号を抽出する音声信号抽出部と、この音声信号抽出部で抽出した音声信号を音声認識処理する音声認識処理部とを構築し、音声認識装置として機能させる。
ここで特にこの発明では音声区間情報管理部に、送話音声区間検出部と、受話音声区間検出部で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定部と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出決定部とを構築し、音声認識装置として機能させる。
図1にこの発明による音声認識方法に従って動作する音声認識装置の実施例を示す。図3と対応する部分に同一符号を付して示す。ここでも分岐装置20で分岐した送話信号と受話信号とをそれぞれ音声認識装置110へ入力する点は図3の説明と同じである。
この発明では音声認識装置110に例えばエコーキャンセラ等で構成した側音抑圧処理部21を設け、この側音抑圧処理部21で受話信号に回り込む側音信号を除去する。これと共に、送話信号は送話音声区間検出部22で音声区間と非音声区間とに仕分けるする。また受話音声区間検出部23では側音抑圧処理された受話信号の音声区間と非音声区間とに仕分けされる。これら送話音声区間検出部22と受話音声区間検出部23で検出された音声区間情報はそれぞれ音声区間情報管理部24へ入力され、音声区間情報管理部24で管理される。
音声区間情報管理部24には送話音声区間と判定された区間に関して同時に受話音声区間でないことを判定し、この音声区間を送話音声抽出区間と決定する送話信号抽出区間決定部24Aと、受話音声区間と判定された区間に関して同時に送話音声区間でないことを判定し、その音声区間を受話音声抽出区間と決定する受話信号抽出区間決定部24Bとを備え、これら送話信号抽出区間決定部24Aと、受話信号抽出区間決定部24Bで決定した信号抽出区間に従って送話信号抽出部25と受話信号抽出部26で送話音声信号と受話音声信号とを抽出し、その抽出した送話音声信号と受話音声信号をそれぞれ送話信号録音部16と受話信号録音部17で録音し、その録音した送話信号と受話信号を用いて音声認識処理部111で音声認識処理を行なう。
図2にこの発明による音声認識プログラムで実行される処理手順を示す。側音抑圧処理部21で送話信号の入力に対する受話信号への側音信号の回り込みを抑圧する(ステップS1)。
送話信号及び受話信号のそれぞれに対して音声区間検出部22と23で音声区間を検出する(ステップS2)。
この各音声区間情報から音声区間情報管理部24で送話音声のみ及び受話音声のみの区間を決定する(ステップS3〜S4)。
音声区間抽出部25と26で送話音声信号のみ及び受話音声信号のみを抽出する(ステップS5〜S6)。
音声認識処理部111で音声認識を行なう(ステップS7)。
上述したように、この発明による音声認識方法によれば音声認識対象となる音声にはクロストーク部分を含まないから、クロストーク部分に起因する誤認識の発生率を低減することができる。この結果として全体として正解率が高い音声認識結果を得ることができる。また、音声認識する音声区間にクロストーク部分を含まないことから、全体の認識処理における計算量の低減やメモリの使用量を低減できる利点も得られる。
上述したこの発明による音声認識方法及びこの音声認識方法で定める手順に従って動作する音声認識装置はハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータに音声認識装置として機能させる実施形態が最良である。
この発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク或いはCD−ROMのような記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。インストールされたプログラムがコンピュータに備えられたCPUで解読されることにより、コンピュータは図2に示した手順に従って音声認識動作を実行する。
この発明による音声認識方法及び音声認識装置は電話を用いた音声自動案内装置或いは音声自動予約等の分野で活用される。
この発明による音声認識装置の実施例を説明するためのブロック図。 この発明による音声認識方法の手順を説明するためのフローチャート。 従来の技術を説明するためのブロック図。
符号の説明
11 マイク部 22 送話音声区間検出部
12 スピーカ部 23 受話音声区間検出部
13 送信部 24 音声区間情報管理部
14 受信部 24A 送話信号抽出区間決定部
15 側音回路 24B 受話信号抽出区間決定部
16 送話信号録音部 25 送話信号抽出部
17 受話信号録音部 26 受話信号抽出部
20 分岐装置 110 音声認識装置
21 側音抑圧処理部 111 音声認識処理部

Claims (6)

  1. 送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識方法において、
    受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、
    送話信号の音声区間を検出する送話音声区間検出過程と、
    上記側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、
    上記送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理する音声区間情報管理過程と、
    この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、
    抽出された音声信号を音声認識処理する音声認識処理過程と、
    を含むことを特徴とする音声認識方法。
  2. 請求項1記載の音声認識方法において、上記音声区間情報管理過程では上記送話音声区間検出過程と、受話音声区間検出過程で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定過程と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出区間決定過程とを含むことを特徴とする音声認識方法。
  3. 送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識装置において、
    受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧部と、
    送話信号の音声区間を検出する送話音声区間検出部と、
    上記側音抑圧部で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出部と、
    上記送話音声区間検出部及び受話音声区間検出部で検出した各音声区間情報を管理する音声区間情報管理部と、
    この音声区間情報管理部で管理されている音声区間情報に従って各音声区間の音声信号を抽出する音声信号抽出部と、
    この音声信号抽出部で抽出した音声信号を音声認識処理する音声認識処理部と、
    を備えたことを特徴とする音声認識装置。
  4. 請求項3記載の音声認識装置において、上記音声区間情報管理部は、上記送話音声区間検出部と、上記受話音声区間検出部で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定部と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出決定部とを備えることを特徴とする音声認識装置。
  5. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3又は4の何れかに記載の音声認識装置として機能させる音声認識プログラム。
  6. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項5記載の音声認識プログラムを記録した記録媒体。
JP2005170826A 2005-06-10 2005-06-10 音声認識方法、音声認識装置、プログラム、記録媒体 Pending JP2006343642A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005170826A JP2006343642A (ja) 2005-06-10 2005-06-10 音声認識方法、音声認識装置、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005170826A JP2006343642A (ja) 2005-06-10 2005-06-10 音声認識方法、音声認識装置、プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2006343642A true JP2006343642A (ja) 2006-12-21

Family

ID=37640641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005170826A Pending JP2006343642A (ja) 2005-06-10 2005-06-10 音声認識方法、音声認識装置、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2006343642A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228459A (ja) * 2012-04-24 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声聴取装置とその方法とプログラム
US20230005488A1 (en) * 2019-12-17 2023-01-05 Sony Group Corporation Signal processing device, signal processing method, program, and signal processing system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294900A (ja) * 1990-04-13 1991-12-26 Fujitsu Ltd 音声認識制御装置
JPH06130991A (ja) * 1992-10-19 1994-05-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号の衝突区間検出方法
JPH11289281A (ja) * 1998-03-31 1999-10-19 Sanyo Electric Co Ltd ハウリング検出方法およびハウリング検出装置
JP2000122692A (ja) * 1998-10-15 2000-04-28 Ricoh Co Ltd 音声認識装置
JP2002297186A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
JP2003316374A (ja) * 2002-04-26 2003-11-07 Hokkaido Technology Licence Office Co Ltd 音声データへの注釈付与方法と音声注釈システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294900A (ja) * 1990-04-13 1991-12-26 Fujitsu Ltd 音声認識制御装置
JPH06130991A (ja) * 1992-10-19 1994-05-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号の衝突区間検出方法
JPH11289281A (ja) * 1998-03-31 1999-10-19 Sanyo Electric Co Ltd ハウリング検出方法およびハウリング検出装置
JP2000122692A (ja) * 1998-10-15 2000-04-28 Ricoh Co Ltd 音声認識装置
JP2002297186A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
JP2003316374A (ja) * 2002-04-26 2003-11-07 Hokkaido Technology Licence Office Co Ltd 音声データへの注釈付与方法と音声注釈システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228459A (ja) * 2012-04-24 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声聴取装置とその方法とプログラム
US20230005488A1 (en) * 2019-12-17 2023-01-05 Sony Group Corporation Signal processing device, signal processing method, program, and signal processing system

Similar Documents

Publication Publication Date Title
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US20160358602A1 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US10319391B2 (en) Impulsive noise suppression
US8606573B2 (en) Voice recognition improved accuracy in mobile environments
US9378755B2 (en) Detecting a user&#39;s voice activity using dynamic probabilistic models of speech features
JP2010206515A (ja) エコーキャンセラ
US20170365249A1 (en) System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US10204634B2 (en) Distributed suppression or enhancement of audio features
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
WO2009104332A1 (ja) 発話分割システム、発話分割方法および発話分割プログラム
KR20150032562A (ko) 소음을 제거하기 위한 방법, 장치 및 모바일 단말
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2006343642A (ja) 音声認識方法、音声認識装置、プログラム、記録媒体
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
EP3206204A1 (en) System for processing audio
GB2516208A (en) Noise reduction in voice communications
JP7109349B2 (ja) 発話検出プログラム、発話検出方法、および発話検出装置
JP2020024310A (ja) 音声処理システム及び音声処理方法
US9978394B1 (en) Noise suppressor
US11600273B2 (en) Speech processing apparatus, method, and program
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
KR102218151B1 (ko) 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법
JP2003248498A (ja) 音声出入力装置、音声出入力方法、及び音声出入力プログラム
JPH11298382A (ja) ハンズフリー装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101221