JP4840149B2 - 発音期間を特定する音信号処理装置およびプログラム - Google Patents
発音期間を特定する音信号処理装置およびプログラム Download PDFInfo
- Publication number
- JP4840149B2 JP4840149B2 JP2007004948A JP2007004948A JP4840149B2 JP 4840149 B2 JP4840149 B2 JP 4840149B2 JP 2007004948 A JP2007004948 A JP 2007004948A JP 2007004948 A JP2007004948 A JP 2007004948A JP 4840149 B2 JP4840149 B2 JP 4840149B2
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- sound
- period
- trigger signal
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
[A−1.構成]
図1は本発明の一実施形態にかかる音信号処理システム1の構成を示すブロック図である。音信号処理システム1は、取得した音信号における発音期間を特定して特定した発音期間の音信号を出力する音信号処理装置10、置かれた音空間における音を収音し音信号に変換して音信号処理装置10に対し出力するマイク20、音信号処理装置10から出力される音信号の特徴量を抽出し予め記憶している特徴量と比較することにより音信号により示される音声の話者を特定する音信号認識装置40を備えている。
次に、音信号処理システム1の動作を説明する。
マイク20は常時、音信号処理システム1の配置された音空間の音を示す音信号を音信号処理装置10に対し出力している。音信号処理装置10の音信号取得部111はマイク20から音信号を受け取ると、受け取った音信号を順次、A/Dコンバータ112に引き渡している。そして、A/Dコンバータ112は音信号取得部111から音信号を受け取ると、受け取った音信号をデジタル信号に変換した後、記憶部12に順次引き渡し、フレーム単位で記憶させている。トリガ信号取得部113がトリガ信号を受け取る前の待機期間では、A/Dコンバータ112は、記憶部12に対し、引き渡す音信号を第1バッファ121に格納するように指示している。その結果、第1バッファ121には常に待機期間中における直近の最大10フレーム分の音信号が格納されていることになる。このように第1バッファ121に格納されている音信号は、未だユーザによる発音(発声)が行われていない状態における音空間内の音、すなわち環境雑音の音を示す音信号である。
(a)開始閾値
(b)開始満了回数
(c)開始猶予回数
(d)終了閾値
(e)終了満了回数
(f)開始時点データ
(g)試行カウンタ
(h)開始閾値超過カウンタ
(i)終了時点データ
(j)終了閾値未満カウンタ
本発明の主な適用対象は、音信号の認識や解析を利用したサービスをユーザに提供するシステムである。そして、本発明を実施するに当たり、十分な効果を得るためには、音信号処理装置10のトリガ信号取得部113がこの種のシステムにおいて発生する適切なイベントを捉えてトリガ信号を取得する必要がある。如何なるイベントを捉えてトリガ信号とするのが適切であるかは、音信号の認識または解析を利用したサービスをユーザに提供するシステムの構成やサービスの提供態様により異なる。また、本発明では、基本的には、トリガ信号の取得時点の直前の期間に得られる音信号からノイズレベルデータを求め、トリガ信号の取得時点以降の判定期間において発音期間の特定を行うが、音信号の認識や解析を利用したサービスをユーザに提供するシステムの構成によっては、トリガ信号の取得時点の近傍の期間において環境音とは言いがたいようなノイズが発生する場合もある。発音期間の特定を正確に行うためには、このような環境音とは言えないノイズの影響を受けないように、ノイズが発生する可能性のある期間を不感帯とし、この不感期間を避けて、ノイズレベルの測定期間および音信号の発音期間の特定を行う判定期間を定めるのが好ましい。以下に述べる各種の具体例は、このような観点から創作されたものである。
図8および図9は、ネットワークを介して音信号の認識や解析を利用したサービスをユーザに提供するシステムの構成例を各々示すものである。図8および図9に示す各例において、端末211および212はサービスを利用するユーザが操作する装置であり、例えば携帯電話やパーソナルコンピュータである。また、サーバ221および222は、ネットワークを介して端末211および212を利用するユーザからの要求を受信し、要求されたサービスを提供する装置である。
図10に示すシステムは、上記具体例1のものと同様、ネットワークを介して音声認識を利用したサービスをユーザに提供するものである。この例において、端末213は、前掲図1のマイク20と音信号処理装置10とを備えるとともにキーフレーズ検出装置40eを備えており、サーバ223は前掲図1の音信号認識装置40を備えている。ここで、キーフレーズ検出装置40eは、音信号を認識するものであるが、サーバ223内の音信号認識装置40とは異なって簡易な構成のものであり、マイク20から与えられる音信号が例えば「認証開始」といった特定のキーフレーズを表しているか否かの判定を行い、特定のキーフレーズを検出したとき、キーフレーズ検出信号を出力する。
例えば具体例1において音声認識を利用したサービスを開始させるに当たり、何らかの前処理が必要となる場合がある。例えば携帯電話のユーザに対し、音声認識を利用した電子商取引サービスを提供するような場合、それに先立って、前処理としてユーザ認証が行われるのが一般的である。そこで、この例では、認証コードの入力のためのキー操作等、前処理のための操作がなされたときに、これを検出してトリガ信号を発生するように音信号処理装置10のトリガ信号取得部113を構成する。
携帯電話等の携帯型電子機器の中には、可動部を有し、ユーザが使用するに当たって、この可動部を動かす必要のあるものがある。例えば図12に例示するようにユーザが表示部のあるフリップ301を回動させて使用する折りたたみ式携帯電話や、図13に例示するように操作部のあるスライド302をスライドして使用するスライド式携帯電話等である。この種の携帯型電子機器に音信号処理装置10を設け、上記具体例1のような音声認識を利用したサービスの提供に用いる場合、ユーザは、そのサービスの提供を受けるに当たって、まず、可動部たるフリップやスライドを動かし、携帯電話を使用可能な状態にする必要がある。
通常、携帯電話等の携帯型電子機器は、ユーザの手に持たれた状態で使用される。そこで、この適用例では、携帯型電子機器に対し、その筐体への人体の接触を検知するセンサを設け、このセンサにトリガ信号取得部113を接続する。そして、携帯型電子機器の筐体がユーザの手に持たれ、センサがON状態になったとき、トリガ信号を発生させるようにトリガ信号取得部113を構成する。
この適用例では、所定エリアに入場するユーザにサービスを提供するゲートシステムに音声認識を利用したサービスを提供する。図15に示すように、ゲートシステム230は、前掲図1のマイク20と、音信号処理装置10と、音信号認識装置40とを有している。また、ゲートシステム230には、その設置エリアへのユーザの入場を検出する入場検出装置240が接続されている。音信号処理装置10におけるトリガ信号取得部113は、ゲートシステム230の設置エリアへのユーザの入場が、入場検出装置240によって検出されたとき、このユーザの入場検出イベントをトリガ信号として取得する。
音声認識を利用したサービスを提供するシステムとして、必要な情報(例えば認証コード)の発声を要求する音声ガイダンスを出力し、この音声ガイダンスに合わせてユーザが発声する音声を収音して認識処理を施し、ユーザから与えられた情報を認識するシステムがある。図16は、このようなシステムに用いる音信号処理装置10aの構成例を示すものである。この音信号処理装置10aは、案内装置311を有する。この音信号処理装置10aは、例えば具体例1(図8)のサーバ221から音声ガイダンスを示すデータを受け取り、このデータを案内装置311に与える。案内装置311は、この与えられたデータに従い、スピーカ312から音声ガイダンスを放音させる。また、案内装置311は、この音声ガイダンスの放音期間はアクティブレベル、それ以外の期間は非アクティブレベルとなる放音期間信号を出力する。音信号処理装置10aにおけるトリガ信号取得部113は、この放音期間信号のアクティブレベルから非アクティブレベルへの立ち下がりをトリガ信号として取得する。
以上説明した実施形態は以下のように様々に変形してもよい。
Claims (12)
- 継続的に音信号を取得する音信号取得手段と、
現時点を終点とする過去の所定期間において前記音信号取得手段により取得された音信号を記憶し保持する記憶手段と、
前記音信号の認識または解析を行う装置に前記音信号の認識または解析を開始させる条件の少なくとも一部を満たすイベントをトリガ信号として取得するトリガ信号取得手段と、
前記トリガ信号の取得時以後に始点を持つ期間を判定期間とし、この判定期間内に前記音信号取得手段により取得された音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号の取得時点以前に始点および終点を持つ期間をノイズレベル測定期間とし、前記記憶手段に記憶された音信号であって前記ノイズレベル測定期間内のものを用いてノイズレベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、前記S/N比が所定の条件を満たすか否かを判定することにより、前記判定期間内に前記音信号取得手段により取得された音信号のうち発音期間の部分を特定する手段であって、前記トリガ信号の取得時点を途中に、または終期として含む不感帯を設け、この不感帯を避けて前記ノイズレベル測定期間または前記判定期間を設定する特定手段と
を備えることを特徴とする音信号処理装置。 - 前記音信号処理装置は、ネットワークを介して音信号の認識または解析を利用したサービスを受けるために用いられる端末に設けられ、
前記トリガ信号取得手段は、前記音信号の認識または解析を利用したサービスについてのサービス開始許可メッセージを前記端末が受信したとき、その受信イベントを前記トリガ信号として取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記トリガ信号取得手段は、所定のキーフレーズが発声されたとき、キーフレーズの終了を検出して前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。
- 前記特定手段は、前記キーフレーズの発声期間または発声された可能性のある期間を不感帯とし、この不感帯を避けて前記ノイズレベル測定期間を設定することを特徴とする請求項3に記載の音信号処理装置。
- 前記音信号処理装置は、ネットワークを介して音信号の認識または解析を利用したサービスを受けるために用いられる端末に設けられ、
前記トリガ信号取得手段は、サービスの開始に先立って行われる前処理または前処理のためになされる端末の操作を検出して前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記音信号処理装置は、その使用開始に当たってユーザによって回動またはスライドされる可動部を具備する携帯型電子機器に設けられ、
前記トリガ信号取得手段は、前記可動部の動きを検出することにより前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記特定部は、前記可動部の動きに起因したノイズが発生した可能性のある期間を不感帯とし、この不感帯を避けて前記ノイズレベル測定期間および前記判定期間を設定することを特徴とする請求項6に記載の音信号処理装置
- 前記音信号処理装置は、携帯型電子機器に設けられ、
前記トリガ信号取得手段は、前記携帯型電子機器が人体に接触したことを検出して前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記音信号処理装置は、ロック機能を有する携帯型電子機器に設けられ、
前記トリガ信号取得手段は、前記携帯型電子機器のロックを解除する操作を検出して前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記音信号処理装置は、所定エリアへ入場するユーザにサービスを提供するゲートシステムに設けられ、
前記トリガ信号取得手段は、前記所定エリアへのユーザの入場を検出して前記トリガ信号を取得することを特徴とする請求項1に記載の音信号処理装置。 - 前記音信号処理装置は、必要な情報の発声を促す音声ガイダンスを放音する案内手段を具備し、
前記トリガ信号取得手段は、前記音声ガイダンスの放音終了イベントをトリガ信号として取得し、
前記特定手段は、前記音声ガイダンスの放音期間または放音された可能性のある期間を不感帯とし、この不感帯を避けて前記ノイズレベル測定期間を設定することを特徴とする請求項1に記載の音信号処理装置。 - 継続的に音信号を取得する処理と、
現時点を終点とする過去の所定期間において取得された音信号を記憶し保持する処理と、
前記音信号の認識または解析を行う装置に前記音信号の認識または解析を開始させる条件の少なくとも一部を満たすイベントをトリガ信号として取得する処理と、
前記トリガ信号の取得時以後に始点を持つ期間を判定期間とし、この判定期間内に取得された音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号の取得時点以前に始点および終点を持つ期間をノイズレベル測定期間とし、記憶された音信号であって前記ノイズレベル測定期間内のものを用いてノイズレベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、前記S/N比が所定の条件を満たすか否かを判定することにより、前記判定期間内に取得された音信号のうち発音期間の部分を特定する処理であって、前記トリガ信号の取得時点を途中に、または終期として含む不感帯を設け、この不感帯を避けて前記ノイズレベル測定期間または前記判定期間を設定する処理と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004948A JP4840149B2 (ja) | 2007-01-12 | 2007-01-12 | 発音期間を特定する音信号処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004948A JP4840149B2 (ja) | 2007-01-12 | 2007-01-12 | 発音期間を特定する音信号処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008170806A JP2008170806A (ja) | 2008-07-24 |
JP4840149B2 true JP4840149B2 (ja) | 2011-12-21 |
Family
ID=39698936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007004948A Expired - Fee Related JP4840149B2 (ja) | 2007-01-12 | 2007-01-12 | 発音期間を特定する音信号処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4840149B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220051672A1 (en) | 2018-12-19 | 2022-02-17 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
CN114121005A (zh) * | 2021-11-29 | 2022-03-01 | Oppo广东移动通信有限公司 | 语音控制方法、装置、电子设备及存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
JP2829014B2 (ja) * | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
JPH02250532A (ja) * | 1989-03-24 | 1990-10-08 | Toshiba Corp | 無線電話装置 |
JPH03159356A (ja) * | 1989-11-16 | 1991-07-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答認識装置の応答方法 |
JP2797616B2 (ja) * | 1990-03-16 | 1998-09-17 | 松下電器産業株式会社 | 雑音抑圧装置 |
JP2757576B2 (ja) * | 1991-03-07 | 1998-05-25 | 日本電気株式会社 | 音声応答装置の負荷試験用擬似呼装置 |
JPH0580794A (ja) * | 1991-09-25 | 1993-04-02 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH0635497A (ja) * | 1992-07-16 | 1994-02-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力装置 |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP2000029486A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声認識システムおよび方法 |
JP2000163098A (ja) * | 1998-11-25 | 2000-06-16 | Mitsubishi Electric Corp | 音声認識装置 |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3654045B2 (ja) * | 1999-05-13 | 2005-06-02 | 株式会社デンソー | 音声認識装置 |
JP2001067091A (ja) * | 1999-08-25 | 2001-03-16 | Sony Corp | 音声認識装置 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
JP3588030B2 (ja) * | 2000-03-16 | 2004-11-10 | 三菱電機株式会社 | 音声区間判定装置及び音声区間判定方法 |
JP2002073061A (ja) * | 2000-09-05 | 2002-03-12 | Matsushita Electric Ind Co Ltd | 音声認識装置及びその方法 |
JP2003216182A (ja) * | 2002-01-23 | 2003-07-30 | Canon Inc | 音声認識装置およびその制御方法、電話機 |
JP3940895B2 (ja) * | 2002-02-18 | 2007-07-04 | 日本電気株式会社 | 音声認識装置及び方法 |
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP2004120264A (ja) * | 2002-09-25 | 2004-04-15 | Fuji Photo Film Co Ltd | デジタルカメラ |
JP2005241215A (ja) * | 2004-02-27 | 2005-09-08 | Mitsubishi Electric Corp | 電気機器、冷蔵庫、冷蔵庫の操作方法 |
JP2005284492A (ja) * | 2004-03-29 | 2005-10-13 | Mitsubishi Electric Corp | 音声利用操作装置 |
CN101194304B (zh) * | 2005-07-15 | 2011-06-22 | 雅马哈株式会社 | 用于确定声音发生周期的音频信号处理装置和音频信号处理方法 |
-
2007
- 2007-01-12 JP JP2007004948A patent/JP4840149B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008170806A (ja) | 2008-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110808039B (zh) | 信息处理装置、信息处理方法以及记录介质 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
US10353476B2 (en) | Efficient gesture processing | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
KR101137181B1 (ko) | 이동 장치의 다감각 음성 개선을 위한 방법 및 장치 | |
EP3089158B1 (en) | Speech recognition processing | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
US20110320202A1 (en) | Location verification system using sound templates | |
KR20190015488A (ko) | 보이스 사용자 인터페이스 | |
EP2747077A1 (en) | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device | |
WO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
JP2007052496A (ja) | ユーザ認証システム及びユーザ認証方法 | |
EP1701338A1 (en) | Speech recognition method | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP5388447B2 (ja) | 発音期間を特定する音信号処理装置および音信号処理方法 | |
JP6239826B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2018045127A (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP2011002534A (ja) | 音声認識装置 | |
JP4840149B2 (ja) | 発音期間を特定する音信号処理装置およびプログラム | |
JP2015082093A (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
JP2004317822A (ja) | 感情分析・表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110919 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |