JP2007147736A

JP2007147736A - 音声通信装置

Info

Publication number: JP2007147736A
Application number: JP2005338767A
Authority: JP
Inventors: Kazuo Endo; 和男遠藤
Original assignee: NEC AccessTechnica Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2005-11-24
Filing date: 2005-11-24
Publication date: 2007-06-14
Anticipated expiration: 2025-11-24
Also published as: JP4527654B2

Abstract

【課題】不要な音声を低減することができる音声通信装置を提供すること。
【解決手段】本発明の音声通信装置は、音声通信装置（１）は、入力部（１０）、ノイズ除去部（２０）を具備している。前記入力部（１０）は、マイク（２）から音声を入力する。前記ノイズ除去部（２０）は、前記マイク（２）の周辺に連続的に発生する音を表す周辺ノイズと、前記マイク（２）の周辺に瞬時に発生する音を表すパルスノイズとを前記音声から除去して出力する。
【選択図】図１

Description

本発明は、マイクから音声を入力して、その音声を出力装置に出力する音声通信装置に関する。

音声通信装置が音声通信システムのために利用されている。音声通信システムは、例えば、使用者に対する受け付け（無人受付）や監視に利用され、マイクと、出力装置と、音声通信装置とを具備している。音声通信装置は、マイクと出力装置に接続され、マイクから音声を入力して、その音声を出力装置に出力する。出力装置がスピーカである場合、音声通信装置には、スピーカに出力される音声の音量を調整するための音量調節部が設けられている。音量調節部は、ハードウェア又はソフトウェアにより実現される。音声通信装置は、マイクから第１使用者の音声を入力し、その音声を増幅してスピーカに出力する。第２使用者は、スピーカに出力された音声を聞くことができる。第２使用者は、スピーカに出力された音声の音量を、音量調節部により調整し、第２使用者が聞きやすい音量に換える。

しかしながら、音量調節部は一律的に音量を調整するため、使用者が音量調節部により音量を調整しても聞き取りにくい場合がある。マイクから入力される音声は、所望の音声と、所望の音声以外の不要な音声とを含んでいる。この場合、所望の音声は、第１使用者の音声を表していて、不要な音声は、周辺ノイズやパルスノイズを含む音声を表している。周辺ノイズは、マイクの周辺に連続的に発生する音を表し、例えば、マイクの周辺で道路を走る車の音や、マイクの周辺における人の会話などが挙げられる。パルスノイズは、マイクの周辺に瞬時に発生する音を表し、例えば、マイクのハウリング音や、ベルの音などが挙げられる。

人の声には個人差があり、第１使用者の音声が小さい場合、第２使用者は、第１使用者の音声が聞き取りにくい。例えば、第２使用者は、スピーカに出力された音声が小さいので、第１使用者の音声を聞きやすい音量まで音量調節部により上げた場合、第１使用者の音声と共に不要な音声も大きくなるため、不要な音声に邪魔されてしまい、第１使用者の音声が聞き取りにくくなってしまう。一方、第２使用者は、スピーカに出力された音声が大きいので、不要な音声をうるさいと思わない音量まで音量調節部により下げた場合、不要な音声と共に第１使用者の音声も小さくなるため、音量が足りずに第１使用者の音声が聞き取りにくくなってしまう。不要な音声を低減することができる音声通信装置が望まれる。

音声に関連する技術として、特開２００３−２３４７０７号公報に雑音除去装置が開示されている（特許文献１参照）。この雑音除去装置は、入力信号レベルに対応して、雑音除去特性の異なるフィルタを選択するものであり、入力信号を平滑化する平滑化手段をもち、該平滑化手段で平滑化された信号レベルに応じて、対応するフィルタを選択することを特徴としている。また、平滑化手段は、雑音除去対象の信号と、雑音除去対象の信号よりも時間的に過去の信号と、雑音除去対象の信号よりも未来の信号を平均する手段を用いることを特徴としている。これにより、雑音除去装置によれば、頻繁なフィルタ切替えを提言し、閾値に対応した雑音除去フィルタを選択できる雑音除去回路を実現することができる。

特開２００３−２５５９７１号公報に音声抽出装置が開示されている（特許文献２参照）。この音声抽出装置は、騒音下で利用される。音声抽出装置は、音声検出手段と、フィルタ手段と、閾値決定手段と、音声区間算出手段と、音声抽出手段とを備えたことを特徴としている。前記音声検出手段は、背景ノイズを含む音声を検出する。前記フィルタ手段は、前記音声検出手段の検出音にバンドレベル分析に基づいたフィルタ特性を作用させる。前記閾値決定手段は、前記フィルタ手段の出力に基づいて閾値を決定する。前記音声区間算出手段は、前記閾値決定手段による閾値以上のレベルの区間を音声区間とする。前記音声抽出手段は、該音声区間から音声を抽出する。前記バンドレベル分析は、オクターブバンドレベル分析であることを特徴としている。前記フィルタの作用は、前記バンドレベル分析による所定帯域に所定の重みを付加して加算する重み付け加算であることを特徴としている。これにより、音声抽出装置によれば、騒音環境から音声を抽出することができる。

特開平７−３３６２９０号公報にＶＯＸ（ＶｏｉｃｅＯｐｅｒａｔｅｄＴｒａｎｓｍｉｔｔｅｒ）制御通信装置が開示されている（特許文献３参照）。このＶＯＸ制御通信装置は、アナログ入力音声を符号化する際に現在フレームが有音か無音かを判定し、有音時のみ送信を行うものである。ＶＯＸ制御通信装置は、変化量算出手段と、予測利得算出手段と、平均算出手段と、第１しきい値算出手段と、第２しきい値算出手段と、第３しきい値算出手段と、第４しきい値算出手段と、第５しきい値算出手段と、第１判定手段と、第２判定手段と、第３判定手段と、更新手段と、を有することを特徴としている。前記変化量算出手段は、無音区間の平均パワーに対する現在フレームの平均パワーの変化量を算出する。前記予測利得算出手段は、少なくとも１次と２次の反射係数に基づき予測利得を算出する。前記平均算出手段は、無音区間の平均予測利得を算出する。前記第１しきい値算出手段は、前記無音区間の平均パワーに基づき第１しきい値を算出する。前記第２しきい値算出手段は、前記現在フレームの予測利得に基づき第２しきい値を算出する。前記第３しきい値算出手段は、前記平均予測利得及び現在フレームの予測利得に基づき第３しきい値を算出する。前記第４しきい値算出手段は、前記第１しきい値及び第２しきい値の重み付け平均により第４しきい値を算出する。前記第５しきい値算出手段は、前記第１しきい値及び第３しきい値の重み付け平均により第５しきい値を算出する。前記第１判定手段は、前記変化量と前記第４しきい値の大小比較により現在フレームが有音か無音かを仮判定する。前記第２判定手段は、前記変化量と前記第５しきい値の大小比較により現在フレームが有音か無音かを仮判定する。前記第３判定手段は、前記第１判定手段と第２判定手段のいずれか一方で有音と仮判定された場合には現在フレームは有音と判定し、前記第１判定手段及び第２判定手段でいずれも無音と仮判定された場合には現在フレームは無音と判定する。前記更新手段は、前記第３判定手段により現在フレームが無音と判定された場合に、前記無音区間の平均パワーと無音と判定された現在フレームの平均パワーの重み付け平均で無音区間の平均パワーを更新するとともに、前記無音区間の平均予測利得と無音と判定された現在フレームの予測利得の重み付け平均で無音区間の平均予測利得を更新する。これにより、ＶＯＸ制御通信装置によれば、話頭切れを無くし高品質を得ることができる。

特開２００３−７８６２７号公報にデジタル構内交換機が開示されている（特許文献４参照）。このデジタル構内交換機は、多者会議通話機能を有している。デジタル構内交換機は、ＰＣＭ／リニア変換手段と、ノイズ除去手段と、会議通話演算手段と、リニア／ＰＣＭ変換手段とを有している。前記ＰＣＭ／リニア変換手段は、ＰＣＭ信号をリニア信号に変換する。前記ノイズ除去手段は、入力されたリニア信号と閾値レベルを比較し、リニア信号が前記閾値レベルより小さくなるとそのリニア信号について除算処理を行って出力する。前記会議通話演算手段は、会議通話演算を行なう。前記リニア／ＰＣＭ変換手段は、会議通話演算後のリニア信号をＰＣＭ信号に変換する。これにより、デジタル構内交換機によれば、任意な閾値レベルを設定し、会議参加者の音声信号がそのレベルより小さい場合、音声信号にゲイン演算を施すことにより、音声信号に付加される背景雑音の影響を小さくし、聴感上の違和感が生じない会議通話を実現できる。

特開２００３−２３４７０７号公報（請求項１、２）特開２００３−２５５９７１号公報（請求項６〜８）特開平７−３３６２９０号公報（請求項１）特開２００３−７８６２７号公報（請求項１）

本発明の課題は、不要な音声を低減することができる音声通信装置を提供することにある。

以下に、［発明を実施するための最良の形態］で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、［特許請求の範囲］の記載と［発明を実施するための最良の形態］の記載との対応関係を明らかにするために付加されたものであるが、［特許請求の範囲］に記載されている発明の技術的範囲の解釈に用いてはならない。

本発明の第１の観点では、音声通信装置（１）は、入力部（１０）、ノイズ除去部（２０）を具備している。
前記入力部（１０）は、マイク（２）から音声を入力する。
前記ノイズ除去部（２０）は、前記マイク（２）の周辺に連続的に発生する音を表す周辺ノイズと、前記マイク（２）の周辺に瞬時に発生する音を表すパルスノイズとを前記音声から除去して出力する。

上記第１の観点について説明する。
マイク（２）から入力される音声は、所望の音声と、所望の音声以外の不要な音声とを含んでいる。この場合、所望の音声は、第１使用者の音声を表していて、不要な音声は、周辺ノイズやパルスノイズを含む音声を表している。周辺ノイズは、マイク（２）の周辺に連続的に発生する音を表し、例えば、マイク２の周辺で道路を走る車の音や、マイク２の周辺における人の会話などが挙げられる。パルスノイズは、マイク（２）の周辺に瞬時に発生する音を表し、例えば、マイク２のハウリング音や、ベルの音などが挙げられる。
例えば、出力部（３０）は、上記の音声を所定の増幅率により増幅して出力音声としてスピーカ（３）に出力する。この場合、出力部（３０）が一定倍率で増幅を行なっても、所望の音声の他に不要な音声まで増幅されてしまい、スピーカ（３）に出力される音声が不明瞭になってしまう可能性がある。
そこで、ノイズ除去部（２０）は、周辺ノイズとパルスノイズとを音声から除去して、出力音声として出力部（３０）に出力する。出力部（３０）は、その出力音声を所定の増幅率により増幅してスピーカ（３）に出力する。第２使用者は、スピーカ３に出力された出力音声から所望の音声を明瞭に聞くことができる。
このように、本発明の音声通信装置（１）によれば、周辺ノイズとパルスノイズとを音声から除去することにより、不要な音声を低減することができる。

本発明の第２の観点では、前記入力部（１０）は、前記マイク（２）から入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す音声データを出力する。
前記ノイズ除去部（２０）は、前記音声データから、前記周辺ノイズを除去するための閾値である周辺ノイズ閾値データと、前記パルスノイズを除去するための閾値であるパルスノイズ閾値データとを減算する。

上記第２の観点について説明する。上記第１の観点と重複する説明を省略する。
本発明の音声通信装置（１）によれば、ノイズ除去部（２０）は、音声データから周辺ノイズ閾値データを減算することにより、マイク（２）から入力される音声から周辺ノイズを除去することができ、音声データからパルスノイズ閾値データを減算することにより、マイク（２）から入力される音声からパルスノイズを除去することができる。

本発明の第３の観点では、前記入力部（１０）は、サンプリング部（１１）を具備している。
前記サンプリング部（１１）は、前記マイク（２）から入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力する。
前記ノイズ除去部（２０）は、周辺ノイズ除去部（２１）と、重み付けデータ出力部（２２）と、閾値データ生成部（２３）と、パルスノイズ除去部（２４）とを具備している。
前記周辺ノイズ除去部（２１）は、前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、数１により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する。
前記重み付けデータ出力部（２２）は、重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する。ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数である。
前記閾値データ生成部（２３）は、数２により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する。
前記パルスノイズ除去部（２４）は、数３により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力する。

上記第３の観点について説明する。上記第１、第２の観点と重複する説明を省略する。
周辺ノイズは、マイク（２）の周辺に連続的に発生していても、マイク（２）からある程度離れているところで発生する音であるため、音声の音量のレベルとしては小さい。このため、周辺ノイズを除去するための閾値として周辺ノイズ閾値データＬを決定しておき、周辺ノイズ除去部（２１）に設定しておくことができる。例えば、周辺ノイズとして、マイク（２）の周辺で道路を走る車の音や、マイク２の周辺における人の会話などを収集しておき、それを周辺ノイズ閾値データＬとして周辺ノイズ除去部（２１）に設定しておく。これにより、周辺ノイズ除去部（２１）が、音声データ列｛Ｄ（ｉ）｝から、周辺ノイズ閾値データＬを減算することにより、マイク（２）から入力される音声から周辺ノイズを除去することができる。
しかしながら、パルスノイズは、マイク（２）のハウリング音や、ベルの音など、マイク（２）の周辺に突発的に発生するため、パルスノイズを除去するための閾値を任意に決定することが困難である。そこで、重み付けデータ出力部（２２）と閾値データ生成部（２３）により、音声データと重み付けとを用いて、パルスノイズを除去するための閾値としてパルスノイズ閾値データＰを生成する。
例えば、ｎが５であり、重み付けデータ列｛Ｐｏ（ｉ）｝は、最新のデータから順に、重み付けデータＰｏ（５）、Ｐｏ（４）、Ｐｏ（３）、Ｐｏ（２）、Ｐｏ（１）のそれぞれに対して、０．５、０．２５、０．１２５、０．０６２５、０．０３１２５が重み付けデータ出力部（２２）により割り当てられている。また、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す音量は、最新のデータから順に、周辺ノイズ除去音声データＤＬ（５）、ＤＬ（４）、ＤＬ（３）、ＤＬ（２）、ＤＬ（１）のそれぞれに対して、１００、５０、１００、３０、５０であるものとする。この場合、閾値データ生成部（２３）により、パルスノイズ閾値データＰは、１００×０．５＋５０×０．２５＋１００×０．１２５＋３０×０．０６２５＋５０×０．０３１２５＝７８．４３７５となる。これにより、パルスノイズ除去部（２４）は、上記の周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す１００、５０、１００、３０、５０から、パルスノイズ閾値データＰが示す７８．４３７５を減算することにより（ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）、マイク（２）から入力される音声からパルスノイズを除去することができる。即ち、本発明の音声通信装置（１）によれば、マイク（２）から入力される音声から、周辺ノイズとパルスノイズとが除去された音声である所望の音声を取り出すことができる。

本発明の第４の観点では、前記入力部（１０）は、サンプリング部（１１）を具備している。
前記サンプリング部（１１）は、前記マイク（２）から入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力する。
前記ノイズ除去部（２０）は、重み付けデータ出力部（２２）と、閾値データ生成部（２３）と、パルスノイズ除去部（２４）と、周辺ノイズ除去部（２１）とを具備している。
前記重み付けデータ出力部（２２）は、重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する。ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数である。
前記閾値データ生成部（２３）は、数４により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する。
前記パルスノイズ除去部（２４）は、数５により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成する。
前記周辺ノイズ除去部（２１）は、前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持している。前記周辺ノイズ除去部（２１）は、数６により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する。

上記第４の観点について説明する。上記第１〜第３の観点と重複する説明を省略する。
上記第３の観点では、ノイズ除去部（２０）は、周辺ノイズ除去部（２１）により周辺ノイズを音声から除去した後に、重み付けデータ出力部（２２）、閾値データ生成部（２３）、パルスノイズ除去部（２４）によりパルスノイズを音声から除去している。これに対して、上記第４の観点として、重み付けデータ出力部（２２）、閾値データ生成部（２３）、パルスノイズ除去部（２４）によりパルスノイズを音声から除去した後に、周辺ノイズ除去部（２１）により周辺ノイズを音声から除去してもよい。

本発明の第５の観点では、前記入力部（１０）は、サンプリング部（１１）を具備している。
前記サンプリング部（１１）は、前記マイク（２）から入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力する。
前記ノイズ除去部（２０）は、周辺ノイズ除去部（２１）と、選択部（２５）と、閾値データ生成部（２３）と、パルスノイズ除去部（２４）とを具備している。
前記周辺ノイズ除去部（２１）は、前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持している。前記周辺ノイズ除去部（２１）は、数７により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する。
前記選択部（２５）は、前記周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示すｎ個の周辺ノイズ除去音声データのうちの、ｍ個の周辺ノイズ除去音声データを選択する。ここで、前記ｍ個の周辺ノイズ除去音声データは０＜ｍ＜ｎを満たす整数である。前記ｍ個の周辺ノイズ除去音声データのうちの１つは、前記ｎ個の周辺ノイズ除去音声データのうちのｎ番目の周辺ノイズ除去音声データＤＬ（ｎ）を含んでいる。
前記閾値データ生成部（２３）は、前記ｍ個の周辺ノイズ除去音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する。
前記パルスノイズ除去部（２４）は、数８により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力する。

上記第５の観点について説明する。上記第１〜第４の観点と重複する説明を省略する。
例えば、上記のように、ｎが５であり、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す音量は、最新のデータから順に、周辺ノイズ除去音声データＤＬ（５）、ＤＬ（４）、ＤＬ（３）、ＤＬ（２）、ＤＬ（１）のそれぞれに対して、１００、５０、１００、３０、５０であるものとする。ｍが３であり、上記設定時間を越える周辺ノイズ除去音声データが３番目の周辺ノイズ除去音声データである場合、選択部（２５）により、２番目、４番目、ｎ番目（５番目）の周辺ノイズ除去音声データが示す音量を利用する。閾値データ生成部（２３）により、パルスノイズ閾値データＰは、１００／３＋５０／３＋３０／３＝６０となる。これにより、パルスノイズ除去部（２４）は、上記の周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す１００、５０、１００、３０、５０から、パルスノイズ閾値データＰが示す６０を減算することにより（ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）、マイク（２）から入力される音声からパルスノイズを除去することができる。即ち、本発明の音声通信装置（１）によれば、マイク（２）から入力される音声から、周辺ノイズとパルスノイズとが除去された音声である所望の音声を取り出すことができる。

本発明の第６の観点では、前記入力部（１０）は、サンプリング部（１１）を具備している。
前記サンプリング部（１１）は、前記マイク（２）から入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力する。
前記ノイズ除去部（２０）は、選択部（２５）と、閾値データ生成部（２３）と、パルスノイズ除去部（２４）と、周辺ノイズ除去部（２１）とを具備している。
前記選択部（２５）は、前記音声データ列｛Ｄ（ｉ）｝が示すｎ個の音声データのうちの、ｍ個の音声データを選択する。ここで、前記ｍ個の音声データは０＜ｍ＜ｎを満たす整数である。前記ｍ個の音声データのうちの１つは、前記ｎ個の音声データのうちのｎ番目の音声データＤ（ｎ）を含んでいる。
前記閾値データ生成部（２３）は、前記ｍ個の音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する。
前記パルスノイズ除去部（２４）は、数９により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成する。
前記周辺ノイズ除去部（２１）は、前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持している。前記周辺ノイズ除去部（２１）は、数１０により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する。

上記第６の観点について説明する。上記第１〜第５の観点と重複する説明を省略する。
上記第５の観点では、ノイズ除去部（２０）は、周辺ノイズ除去部（２１）により周辺ノイズを音声から除去した後に、選択部（２５）、閾値データ生成部（２３）、パルスノイズ除去部（２４）によりパルスノイズを音声から除去している。これに対して、上記第６の観点として、選択部（２５）、閾値データ生成部（２３）、パルスノイズ除去部（２４）によりパルスノイズを音声から除去した後に、周辺ノイズ除去部（２１）により周辺ノイズを音声から除去してもよい。

本発明の第７の観点では、音声通信装置（１）は、更に、出力部（３０）を具備している。
前記出力部（３０）は、音量比較部（３１）と、音量調整部（３２）と、音量増幅部（３３）とを具備している。
前記音量比較部（３１）は、前記出力音声の音量と、前記出力音声の大きさを判断するための設定音量とを比較する。
前記音量調整部（３２）は、前記出力音声の音量と前記設定音量との比較結果に基づいて前記出力音声の音量を調整する。
前記音量増幅部（３３）は、前記出力音声の音量を所定の増幅率により増幅して出力する。
そこで、前記出力音声の音量が前記設定音量よりも大きい場合、前記音量調整部（３２）は、前記出力音声の音量から、前記出力音声の音量と前記設定音量との差分を減算する。
前記出力音声の音量が前記設定音量よりも小さい場合、前記音量調整部（３２）は、前記出力音声の音量に、前記出力音声の音量と前記設定音量との差分を加算する。

上記第７の観点について説明する。上記第１〜第６の観点と重複する説明を省略する。
本発明の音声通信装置（１）によれば、出力部（３０）は、出力音声の音量を決められた音量に自動的に変更する。これにより、第１使用者がマイク（２）を用いるときの第１使用者とマイク（２）との距離にかかわらず、一定の音量で出力音声を再生することができる。

本発明の第８の観点では、音声通信装置（１）は、更に、音声認識部（４０）と、ソフトウェア（４１）と、動作パターンテーブル（４２）とを具備している。
前記動作パターンテーブル（４２）には、複数の設定出力音声と、前記ソフトウェア（４１）が実行可能な複数の動作とが対応付けられて格納されている。
前記音声認識部（４０）は、前記動作パターンテーブル（４２）を参照して、前記複数の動作のうちの、前記出力音声に一致する設定出力音声に応じた動作が実行されるように、前記ソフトウェア（４１）の制御を行う。

上記第８の観点について説明する。上記第１〜第７の観点と重複する説明を省略する。
本発明の音声通信装置（１）によれば、周辺ノイズとパルスノイズとを音声から除去することにより、ソフトウェア（４１）が誤動作することなく、音声認識を行なうことができる。
例えば、音声通信装置１にロボットが設けられ、上記のソフトウェア（４１）が実行可能な動作として、そのロボットの腕を振る、頭を振るといった動作のパターンを制御したり、「いらっしゃいませ」といったような言葉を発声するパターンを制御したりすることも可能である。こういった行動をするような手段を設けることで、マイク（２）への話しかけにより、喜怒哀楽を表現させたり、答えを返したりするといったことも可能となる。
また、音声通信装置（１）から、出力装置（４）として他の通信装置に音声を通知し、その音声を聞いたオペレータから音声通信装置（１）の音声認識部（４０）に指示を出すことで、音声認識部（４０）を用いて多彩な行動を取らせることも可能となる。

本発明の第９の観点では、音声通信装置（１）は、音声通信を行うコンピュータである。上記の入力部（１０）、ノイズ除去部（２０）、出力部（３０）、音声認識部（４０）は、そのコンピュータに実行させるコンピュータプログラム（７）である。

以上により、本発明の音声通信装置によれば、周辺ノイズとパルスノイズとを音声から除去することにより、不要な音声を低減することができる。
本発明の音声通信装置によれば、使用者がマイクを用いるときの使用者とマイクとの距離にかかわらず、一定の音量で出力音声を再生することができる。
本発明の音声通信装置によれば、周辺ノイズとパルスノイズとを音声から除去することにより、ソフトウェアが誤動作することなく、音声認識を行なうことができる。

以下に添付図面を参照して、本発明の音声通信装置について詳細に説明する。

（第１実施形態）
図１は、本発明の第１実施形態による音声通信装置１が適用される音声通信システムの構成を示している。音声通信システムは、例えば、使用者に対する受け付け（無人受付）や監視に利用され、マイク２と、出力装置３と、音声通信装置１とを具備している。音声通信装置１は、マイク２と出力装置３に接続され、マイク２から音声を入力して、その音声を出力装置３に出力する。

音声通信装置１は、コンピュータであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５、記憶装置６を具備している。記憶装置６には、ＣＰＵ５が実行するためのコンピュータプログラム７が格納されている。コンピュータプログラム７は、入力部１０と、ノイズ除去部２０と、出力部３０とを含んでいる。出力装置３がスピーカである場合、例えば、音声通信装置１には、スピーカ３に出力される音声の音量を調整するための音量調節部４が設けられている。音量調節部４は、ハードウェア又はソフトウェアにより実現される。

入力部１０は、マイク２から第１使用者の音声を入力する。マイク２から入力される音声は、所望の音声と、所望の音声以外の不要な音声とを含んでいる。この場合、所望の音声は、第１使用者の音声を表していて、不要な音声は、周辺ノイズやパルスノイズを含む音声を表している。周辺ノイズは、マイク２の周辺に連続的に発生する音を表し、例えば、マイク２の周辺で道路を走る車の音や、マイク２の周辺における人の会話などが挙げられる。パルスノイズは、マイク２の周辺に瞬時に発生する音を表し、例えば、マイク２のハウリング音や、ベルの音などが挙げられる。

出力部３０は、上記の音声を所定の増幅率により増幅して出力音声としてスピーカ３に出力する。この場合、出力部３０が一定倍率で増幅を行なっても、所望の音声の他に不要な音声まで増幅されてしまい、スピーカ３に出力される音声が不明瞭になってしまう可能性がある。
そこで、ノイズ除去部２０は、周辺ノイズとパルスノイズとを音声から除去して、出力音声として出力部３０に出力する。出力部３０は、その出力音声を所定の増幅率により増幅してスピーカ３に出力する。第２使用者は、スピーカ３に出力された出力音声から所望の音声を明瞭に聞くことができる。

周辺ノイズとパルスノイズとを音声から除去することについて詳細に説明する。図２は、音声通信装置１の機能ロジックを示している。図３は、音声通信装置１の動作を示すフローチャートである。

入力部１０は、サンプリング部１１、クロック発生部１２を具備し、音声入力処理を実行する（ステップＳ１）。

クロック発生部１２は、クロック信号ＣＬＫを生成し、所定の周期によりサンプリング部１１、ノイズ除去部２０に出力する。
サンプリング部１１は、マイク２から入力される音声をクロック信号ＣＬＫに応じて所定の周期でサンプリングする。このとき、図４に示されるように、サンプリング部１１は、サンプリング時の音声を示す音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力する。

ノイズ除去部２０は、周辺ノイズ除去部２１、重み付けデータ出力部２２、閾値データ生成部２３、パルスノイズ除去部２４を具備し、ノイズ除去処理を実行する（ステップＳ２）。

周辺ノイズ除去部２１は、周辺ノイズを除去するための閾値である周辺ノイズ閾値データＬを予め保持している。図４に示されるように、周辺ノイズ除去部２１は、音声データ列｛Ｄ（ｉ）｝から、周辺ノイズ閾値データＬを減算する。即ち、周辺ノイズ除去部２１は、数１１により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝を生成する。ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０である。

このように、本発明の音声通信装置１によれば、ノイズ除去部２０は、周辺ノイズを音声から除去することができる。
周辺ノイズは、マイク２の周辺に連続的に発生していても、マイク２からある程度離れているところで発生する音であるため、音声の音量のレベルとしては小さい。このため、周辺ノイズを除去するための閾値として周辺ノイズ閾値データＬを決定しておき、周辺ノイズ除去部２１に設定しておくことができる。例えば、周辺ノイズとして、マイク２の周辺で道路を走る車の音や、マイク２の周辺における人の会話などを収集しておき、それを周辺ノイズ閾値データＬとして周辺ノイズ除去部２１に設定しておく。これにより、周辺ノイズ除去部２１が、音声データ列｛Ｄ（ｉ）｝から、周辺ノイズ閾値データＬを減算することにより、マイク２から入力される音声から周辺ノイズを除去することができる。
しかしながら、パルスノイズは、マイク２のハウリング音や、ベルの音など、マイク２の周辺に突発的に発生するため、パルスノイズを除去するための閾値を任意に決定することが困難である。そこで、重み付けデータ出力部２２と閾値データ生成部２３により、音声データと重み付けとを用いて、パルスノイズを除去するための閾値としてパルスノイズ閾値データＰを生成する。

図４に示されるように、重み付けデータ出力部２２は、クロック信号ＣＬＫに応じて、重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する。重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数である。

図４に示されるように、閾値データ生成部２３は、数１２により、パルスノイズを除去するための閾値であるパルスノイズ閾値データＰを生成する。

図４に示されるように、パルスノイズ除去部２４は、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝から、パルスノイズ閾値データＰを減算する。即ち、パルスノイズ除去部２４は、数１３により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝を生成し、出力音声として出力する。ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０である。

このように、本発明の音声通信装置１によれば、ノイズ除去部２０は、周辺ノイズを音声から除去する上に、パルスノイズを音声から除去することができる。
例えば、ｎが５であり、重み付けデータ列｛Ｐｏ（ｉ）｝は、最新のデータから順に、重み付けデータＰｏ（５）、Ｐｏ（４）、Ｐｏ（３）、Ｐｏ（２）、Ｐｏ（１）のそれぞれに対して、０．５、０．２５、０．１２５、０．０６２５、０．０３１２５が重み付けデータ出力部２２により割り当てられている。また、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す音量は、最新のデータから順に、周辺ノイズ除去音声データＤＬ（５）、ＤＬ（４）、ＤＬ（３）、ＤＬ（２）、ＤＬ（１）のそれぞれに対して、１００、５０、１００、３０、５０（ｄＢ）であるものとする。この場合、閾値データ生成部２３により、パルスノイズ閾値データＰは、１００×０．５＋５０×０．２５＋１００×０．１２５＋３０×０．０６２５＋５０×０．０３１２５＝７８．４３７５（ｄＢ）となる。これにより、パルスノイズ除去部２４は、上記の周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す１００、５０、１００、３０、５０から、パルスノイズ閾値データＰが示す７８．４３７５を減算することにより（ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）、マイク２から入力される音声からパルスノイズを除去することができる。即ち、本発明の音声通信装置１によれば、マイク２から入力される音声から、周辺ノイズとパルスノイズとが除去された音声である所望の音声を取り出すことができる。

出力部３０は、音量比較部３１、音量調整部３２、音量増幅部３３を具備し、音声出力処理を実行する（ステップＳ３）。

音量比較部３１は、出力音声の音量と、出力音声の大きさを判断するための設定音量とを比較する。音量調整部３２は、出力音声の音量と設定音量との比較結果に基づいて出力音声の音量を調整する。音量増幅部３３は、出力音声の音量を増幅するための所定の増幅率であるデータを予め保持している。
例えば、出力音声の音量と設定音量とを比較した結果、出力音声の音量が設定音量よりも大きい。この場合、音量調整部３２は、出力音声の音量から、出力音声の音量と設定音量との差分を減算し、音量増幅部３３に出力する。音量増幅部３３は、この出力音声の音量を所定の増幅率により増幅し、出力装置３に出力する。
例えば、出力音声の音量と設定音量とを比較した結果、出力音声の音量が設定音量よりも小さい。この場合、音量調整部３２は、出力音声の音量に、出力音声の音量と設定音量との差分を加算し、音量増幅部３３に出力する。音量増幅部３３は、この出力音声の音量を所定の増幅率により増幅し、出力装置３に出力する。

このように、本発明の音声通信装置１によれば、出力部３０は、出力音声の音量を決められた音量に自動的に変更する。これにより、第１使用者がマイク２を用いるときの第１使用者とマイク２との距離にかかわらず、一定の音量で出力音声を再生することができる。
この場合、第２使用者は、音量調節部４を用いなくても、スピーカ３に出力された出力音声を明瞭に聞くことができるし、音量調節部４により、好みの音量に合わせて、スピーカ３に出力された出力音声を上げたり下げたりすることもできる。

上述では、ノイズ除去部２０は、周辺ノイズ除去部２１により周辺ノイズを音声から除去した後に、重み付けデータ出力部２２、閾値データ生成部２３、パルスノイズ除去部２４によりパルスノイズを音声から除去しているが、ノイズを除去する順番は上記に限定されない。図５に示されるように、第１実施形態の変形例として、重み付けデータ出力部２２、閾値データ生成部２３、パルスノイズ除去部２４によりパルスノイズを音声から除去した後に、周辺ノイズ除去部２１により周辺ノイズを音声から除去してもよい。

この場合、図６に示されるように、閾値データ生成部２３は、数１４により、パルスノイズを除去するための閾値であるパルスノイズ閾値データＰを生成する。

図６に示されるように、パルスノイズ除去部２４は、音声データ列｛Ｄ（ｉ）｝から、パルスノイズ閾値データＰを減算する。即ち、パルスノイズ除去部２４は、数１５により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝を生成する。ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０である。

図６に示されるように、周辺ノイズ除去部２１は、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝から、周辺ノイズ閾値データＬを減算する。即ち、周辺ノイズ除去部２１は、数１６により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝を生成し、出力音声として出力する。ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０である。

以上の説明により、本発明の第１実施形態による音声通信装置１によれば、周辺ノイズとパルスノイズとを音声から除去することにより、不要な音声を低減することができる。
本発明の第１実施形態による音声通信装置１によれば、使用者がマイク２を用いるときの使用者とマイク２との距離にかかわらず、一定の音量で出力音声を再生することができる。

（第２実施形態）
本発明の第２実施形態による音声通信装置１について説明する。第２実施形態では、第１実施形態と異なる点のみ説明する。

周辺ノイズとパルスノイズとを音声から除去することについて詳細に説明する。図７は、音声通信装置１の機能ロジックを示している。

第２実施形態では、ノイズ除去部２０は、重み付けデータ出力部２２に代えて、選択部２５を具備している。

図８に示されるように、周辺ノイズ除去部２１は、音声データ列｛Ｄ（ｉ）｝から、周辺ノイズ閾値データＬを減算する。即ち、周辺ノイズ除去部２１は、数１７により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝を生成する。ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０である。

図８に示されるように、選択部２５は、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示すｎ個の周辺ノイズ除去音声データのうちの、ｍ個の周辺ノイズ除去音声データを選択する。ここで、ｍ個の周辺ノイズ除去音声データは０＜ｍ＜ｎを満たす整数である。ｍ個の周辺ノイズ除去音声データとして、ｎ個の周辺ノイズ除去音声データの中から、時間的に近い周辺ノイズ除去音声データ（サンプリング時における最新のものから、設定時間を越えないものまで）が多く選択され、時間的に遠い周辺ノイズ除去音声データ（サンプリング時における設定時間を越えるもの）が少なく選択される。この場合、ｍ個の周辺ノイズ除去音声データのうちの１つは、ｎ個の周辺ノイズ除去音声データのうちのｎ番目の周辺ノイズ除去音声データＤＬ（ｎ）を含んでいる。例えば、ｎが５であり、ｍが３であり、上記設定時間を越える周辺ノイズ除去音声データが３番目の周辺ノイズ除去音声データである場合、ｍ個の周辺ノイズ除去音声データＭ１、Ｍ２、Ｍ３は、それぞれ、ｎ個の周辺ノイズ除去音声データのうちの、２番目、４番目、ｎ番目（５番目）の周辺ノイズ除去音声データである。

図８に示されるように、閾値データ生成部２３は、ｍ個の周辺ノイズ除去音声データの和をｍで除算する。即ち、閾値データ生成部２３は、Ｐ＝（Ｍ１＋Ｍ２＋Ｍ３）／３により、パルスノイズを除去するための閾値であるパルスノイズ閾値データＰを生成する。

図８に示されるように、パルスノイズ除去部２４は、数１８により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝を生成し、出力音声として出力する。ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０である。

このように、本発明の音声通信装置１によれば、ノイズ除去部２０は、周辺ノイズを音声から除去する上に、パルスノイズを音声から除去することができる。
例えば、上記のように、ｎが５であり、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す音量は、最新のデータから順に、周辺ノイズ除去音声データＤＬ（５）、ＤＬ（４）、ＤＬ（３）、ＤＬ（２）、ＤＬ（１）のそれぞれに対して、１００、５０、１００、３０、５０（ｄＢ）であるものとする。ｍが３であり、上記設定時間を越える周辺ノイズ除去音声データが３番目の周辺ノイズ除去音声データである場合、選択部２５により、２番目、４番目、ｎ番目（５番目）の周辺ノイズ除去音声データが示す音量を利用する。閾値データ生成部２３により、パルスノイズ閾値データＰは、１００／３＋５０／３＋３０／３＝６０（ｄＢ）となる。これにより、パルスノイズ除去部２４は、上記の周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示す１００、５０、１００、３０、５０から、パルスノイズ閾値データＰが示す６０を減算することにより（ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）、マイク２から入力される音声からパルスノイズを除去することができる。即ち、マイク２から入力される音声から、周辺ノイズとパルスノイズとが除去された音声である所望の音声を取り出すことができる。

上述では、ノイズ除去部２０は、周辺ノイズ除去部２１により周辺ノイズを音声から除去した後に、選択部２５、閾値データ生成部２３、パルスノイズ除去部２４によりパルスノイズを音声から除去しているが、ノイズを除去する順番は上記に限定されない。図９に示されるように、第２実施形態の変形例として、選択部２５、閾値データ生成部２３、パルスノイズ除去部２４によりパルスノイズを音声から除去した後に、周辺ノイズ除去部２１により周辺ノイズを音声から除去してもよい。

この場合、図１０に示されるように、選択部２５は、音声データ列｛ＤＬ（ｉ）｝が示すｎ個の音声データのうちの、ｍ個の音声データを選択する。ここで、ｍ個の音声データは０＜ｍ＜ｎを満たす整数である。ｍ個の音声データとして、ｎ個の音声データの中から、時間的に近い音声データ（サンプリング時における最新のものから、設定時間を越えないものまで）が多く選択され、時間的に遠い音声データ（サンプリング時における設定時間を越えるもの）が少なく選択される。この場合、ｍ個の音声データのうちの１つは、ｎ個の音声データのうちのｎ番目の音声データＤ（ｎ）を含んでいる。例えば、ｎが５であり、ｍが３であり、上記設定時間を越える音声データが３番目の音声データである場合、ｍ個の音声データＭ１、Ｍ２、Ｍ３は、それぞれ、ｎ個の音声データのうちの、２番目、４番目、ｎ番目（５番目）の音声データである。

図１０に示されるように、閾値データ生成部２３は、ｍ個の音声データの和をｍで除算する。即ち、閾値データ生成部２３は、Ｐ＝（Ｍ１＋Ｍ２＋Ｍ３）／３により、パルスノイズを除去するための閾値であるパルスノイズ閾値データＰを生成する。

図１０に示されるように、パルスノイズ除去部２４は、音声データ列｛Ｄ（ｉ）｝から、パルスノイズ閾値データＰを減算する。即ち、パルスノイズ除去部２４は、数１９により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝を生成する。ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０である。

図１１に示されるように、周辺ノイズ除去部２１は、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝から、周辺ノイズ閾値データＬを減算する。即ち、周辺ノイズ除去部２１は、数２０により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝を生成し、出力音声として出力する。ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０である。

（第３実施形態）
本発明の第３実施形態による音声通信装置１について説明する。第３実施形態では、第１、第２実施形態と異なる点のみ説明する。

図１１は、本発明の第３実施形態による音声通信装置１が適用される音声通信システムの構成を示している。記憶装置６に格納されているコンピュータプログラム７は、更に、音声認識部４０を含んでいる。この場合、入力部１０は、マイク２から使用者の音声を入力する。ノイズ除去部２０は、周辺ノイズとパルスノイズとを音声から除去して、音声認識部４０に出力する。音声認識部４０は、その音声により音声認識を行なう。

記憶装置６には、更に、ソフトウェア４１と、動作パターンテーブル４２とが格納されている。
図１２に示されるように、動作パターンテーブル４２には、複数の設定出力音声と、ソフトウェア４１が実行可能な複数の動作とが対応付けられて格納されている。

図１３は、音声通信装置１の動作を示すフローチャートである。

上述のステップＳ１〜Ｓ３が実行された後、音声認識部４０は、出力音声を入力し、音声認識処理を実行する（ステップＳ４）。
この場合、出力音声は、ノイズ除去部２０から出力された出力音声でもよいし、出力部３０から出力された出力音声でもよい。音声認識部４０は、動作パターンテーブル４２を参照して、上記の複数の動作のうちの、出力音声に一致する設定出力音声に応じた動作が実行されるように、ソフトウェア４１の制御を行う。

本発明の音声通信装置１によれば、周辺ノイズとパルスノイズとを音声から除去することにより、ソフトウェア４１が誤動作することなく、音声認識を行なうことができる。
例えば、音声通信装置１にロボットが設けられ、上記のソフトウェア４１が実行可能な動作として、そのロボットの腕を振る、頭を振るといった動作のパターンを制御したり、「いらっしゃいませ」といったような言葉を発声するパターンを制御したりすることも可能である。こういった行動をするような手段を設けることで、マイク２への話しかけにより、喜怒哀楽を表現させたり、答えを返したりするといったことも可能となる。
また、音声通信装置１から、出力装置４として他の通信装置に音声を通知し、その音声を聞いたオペレータから音声通信装置１の音声認識部４０に指示を出すことで、音声認識部４０を用いて多彩な行動を取らせることも可能となる。

以上の説明により、本発明の第３実施形態による音声通信装置１によれば、第１、第２実施形態の効果に加えて、周辺ノイズとパルスノイズとを音声から除去することにより、ソフトウェア４１が誤動作することなく、音声認識を行なうことができる。

図１は、本発明の音声通信装置１が適用される音声通信システムの構成を示している。（第１、第２実施形態）図２は、本発明の音声通信装置１の機能ロジックを示している。（第１実施形態）図３は、本発明の音声通信装置１の動作を示すフローチャートである。（第１、第２実施形態）図４は、本発明の音声通信装置１の動作を説明するための図である。（第１実施形態）図５は、本発明の音声通信装置１の機能ロジックを示している。（第１実施形態の変形例）図６は、本発明の音声通信装置１の動作を説明するための図である。（第１実施形態の変形例）図７は、本発明の音声通信装置１の機能ロジックを示している。（第２実施形態）図８は、本発明の音声通信装置１の動作を説明するための図である。（第２実施形態）図９は、本発明の音声通信装置１の機能ロジックを示している。（第２実施形態の変形例）図１０は、本発明の音声通信装置１の動作を説明するための図である。（第２実施形態の変形例）図１１は、本発明の音声通信装置１が適用される音声通信システムの構成を示している。（第３実施形態）図１２は、出力音声とソフトウェア４１の動作とを対応付ける動作パターンテーブル４２を示している。図１３は、本発明の音声通信装置１の動作を示すフローチャートである。（第３実施形態）

符号の説明

１音声通信装置
２マイク
３スピーカ
４音量調節機能
５ＣＰＵ
６記憶装置
７コンピュータプログラム
１０入力部
１１サンプリング部
１２クロック発生部
２０ノイズ除去部
２１周辺ノイズ除去部
２２重み付けデータ出力部
２３閾値データ生成部
２４パルスノイズ除去部
２５選択部
３０出力部
３１音量比較部
３２音量調整部
３３音量増幅部
４０音声認識部
４１ソフトウェア
４２動作パターンテーブル

Claims

マイクから音声を入力する入力部と、
前記マイクの周辺に連続的に発生する音を表す周辺ノイズと、前記マイクの周辺に瞬時に発生する音を表すパルスノイズとを前記音声から除去して出力するノイズ除去部と
を具備する音声通信装置。
請求項１に記載の音声通信装置において、
前記入力部は、前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す音声データを出力し、
前記ノイズ除去部は、
前記音声データから、前記周辺ノイズを除去するための閾値である周辺ノイズ閾値データと、前記パルスノイズを除去するための閾値であるパルスノイズ閾値データとを減算する
音声通信装置。
請求項２に記載の音声通信装置において、
前記入力部は、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリング部
を具備し、
前記ノイズ除去部は、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する周辺ノイズ除去部と、
重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する重み付けデータ出力部と、ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数であり、

により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成部と、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力するパルスノイズ除去部と
を具備する音声通信装置。
請求項２に記載の音声通信装置において、
前記入力部は、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリング部
を具備し、
前記ノイズ除去部は、
重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する重み付けデータ出力部と、ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数であり、

により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成部と、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成するパルスノイズ除去部と、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する周辺ノイズ除去部と
を具備する音声通信装置。
請求項２に記載の音声通信装置において、
前記入力部は、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリング部
を具備し、
前記ノイズ除去部は、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する周辺ノイズ除去部と、
前記周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示すｎ個の周辺ノイズ除去音声データのうちの、ｍ個の周辺ノイズ除去音声データを選択する選択部と、ここで、前記ｍ個の周辺ノイズ除去音声データは０＜ｍ＜ｎを満たす整数であり、前記ｍ個の周辺ノイズ除去音声データのうちの１つは、前記ｎ個の周辺ノイズ除去音声データのうちのｎ番目の周辺ノイズ除去音声データＤＬ（ｎ）を含み、
前記ｍ個の周辺ノイズ除去音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成部と、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力するパルスノイズ除去部と
を具備する音声通信装置。
請求項２に記載の音声通信装置において、
前記入力部は、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリング部
を具備し、
前記ノイズ除去部は、
前記音声データ列｛Ｄ（ｉ）｝が示すｎ個の音声データのうちの、ｍ個の音声データを選択する選択部と、ここで、前記ｍ個の音声データは０＜ｍ＜ｎを満たす整数であり、前記ｍ個の音声データのうちの１つは、前記ｎ個の音声データのうちのｎ番目の音声データＤ（ｎ）を含み、
前記ｍ個の音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成部と、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成するパルスノイズ除去部と、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する周辺ノイズ除去部と
を具備する音声通信装置。
請求項３〜６のいずれかに記載の音声通信装置において、
更に、
前記出力音声の音量と、前記出力音声の大きさを判断するための設定音量とを比較する音量比較部と、
前記出力音声の音量と前記設定音量との比較結果に基づいて前記出力音声の音量を調整する音量調整部と、
前記出力音声の音量を所定の増幅率により増幅して出力する音量増幅部と
を具備し、
前記音量調整部は、
前記出力音声の音量が前記設定音量よりも大きい場合、前記出力音声の音量から、前記出力音声の音量と前記設定音量との差分を減算し、
前記出力音声の音量が前記設定音量よりも小さい場合、前記出力音声の音量に、前記出力音声の音量と前記設定音量との差分を加算する
音声通信装置。
請求項７に記載の音声通信装置において、
更に、
ソフトウェアと、
複数の設定出力音声と、前記ソフトウェアが実行可能な複数の動作とが対応付けられた動作パターンテーブルと、
前記動作パターンテーブルを参照して、前記複数の動作のうちの、前記出力音声に一致する設定出力音声に応じた動作が実行されるように、前記ソフトウェアの制御を行う音声認識部と
を具備する音声通信装置。
音声通信を行うコンピュータを用いる方法であって、
マイクから音声を入力する入力ステップと、
前記マイクの周辺に連続的に発生する音を表す周辺ノイズと、前記マイクの周辺に瞬時に発生する音を表すパルスノイズとを前記音声から除去するノイズ除去ステップと
を具備する音声通信方法。
請求項９に記載の音声通信方法において、
前記入力ステップは、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す音声データを出力し、
前記ノイズ除去ステップは、
前記音声データから、前記周辺ノイズを除去するための閾値である周辺ノイズ閾値データと、前記パルスノイズを除去するための閾値であるパルスノイズ閾値データとを減算する
音声通信方法。
請求項１０に記載の音声通信方法において、
前記入力ステップは、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリングステップ
を具備し、
前記ノイズ除去ステップは、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する周辺ノイズ除去ステップと、
重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する重み付けデータ出力ステップと、ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数であり、

により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成ステップと、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力するパルスノイズ除去ステップと
を具備する音声通信方法。
請求項１０に記載の音声通信方法において、
前記入力ステップは、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリングステップ
を具備し、
前記ノイズ除去ステップは、
重み付けデータ列｛Ｐｏ（ｉ）｜Ｐｏ（ｉ）＝Ｐｏ（１）、Ｐｏ（２）、Ｐｏ（３）、…、Ｐｏ（ｎ）｝を出力する重み付けデータ出力ステップと、ここで、前記重み付けデータ列｛Ｐｏ（ｉ）｝が示すｎ個の重み付けデータは、０＜Ｐｏ（ｉ）＜１により表され、ｎ番目から１番目までこの順で小さくなる係数であり、

により、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成ステップと、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成するパルスノイズ除去ステップと、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する周辺ノイズ除去ステップと
を具備する音声通信方法。
請求項１０に記載の音声通信方法において、
前記入力ステップは、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリングステップ
を具備し、
前記ノイズ除去ステップは、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成する周辺ノイズ除去ステップと、
前記周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝が示すｎ個の周辺ノイズ除去音声データのうちの、ｍ個の周辺ノイズ除去音声データを選択する選択ステップと、ここで、前記ｍ個の周辺ノイズ除去音声データは０＜ｍ＜ｎを満たす整数であり、前記ｍ個の周辺ノイズ除去音声データのうちの１つは、前記ｎ個の周辺ノイズ除去音声データのうちのｎ番目の周辺ノイズ除去音声データＤＬ（ｎ）を含み、
前記ｍ個の周辺ノイズ除去音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成ステップと、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成し、出力音声として出力するパルスノイズ除去ステップと
を具備する音声通信方法。
請求項１０に記載の音声通信方法において、
前記入力ステップは、
前記マイクから入力される前記音声を所定の周期でサンプリングし、サンプリング時の前記音声を示す前記音声データである音声データ列｛Ｄ（ｉ）｜Ｄ（ｉ）＝Ｄ（１）、Ｄ（２）、Ｄ（３）、…、Ｄ（ｎ）｝（ｎは２以上の整数）を順次に出力するサンプリングステップ
を具備し、
前記ノイズ除去ステップは、
前記音声データ列｛Ｄ（ｉ）｝が示すｎ個の音声データのうちの、ｍ個の音声データを選択する選択ステップと、ここで、前記ｍ個の音声データは０＜ｍ＜ｎを満たす整数であり、前記ｍ個の音声データのうちの１つは、前記ｎ個の音声データのうちのｎ番目の音声データＤ（ｎ）を含み、
前記ｍ個の音声データの和をｍで除算して、前記パルスノイズ閾値データであるパルスノイズ閾値データＰを生成する閾値データ生成ステップと、

により、パルスノイズ除去音声データ列｛ＤＰ（ｉ）｝（ただし、ＤＰ（ｉ）＜０のときはＤＰ（ｉ）＝０）を生成するパルスノイズ除去ステップと、
前記周辺ノイズ閾値データである周辺ノイズ閾値データＬを予め保持し、

により、周辺ノイズ除去音声データ列｛ＤＬ（ｉ）｝（ただし、ＤＬ（ｉ）＜０のときはＤＬ（ｉ）＝０）を生成し、出力音声として出力する周辺ノイズ除去ステップと
を具備する音声通信方法。
請求項１１〜１４のいずれかに記載の音声通信方法において、
更に、
前記出力音声の音量と、前記出力音声の大きさを判断するための設定音量とを比較する音量比較ステップと、
前記出力音声の音量と前記設定音量との比較結果に基づいて前記出力音声の音量を調整する音量調整ステップと、
前記出力音声の音量を所定の増幅率により増幅して出力する音量増幅ステップと
を具備し、
前記音量調整ステップは、
前記出力音声の音量が前記設定音量よりも大きい場合、前記出力音声の音量から、前記出力音声の音量と前記設定音量との差分を減算し、
前記出力音声の音量が前記設定音量よりも小さい場合、前記出力音声の音量に、前記出力音声の音量と前記設定音量との差分を加算する
音声通信方法。
請求項１５に記載の音声通信方法において、
更に、
複数の設定出力音声と、ソフトウェアが実行可能な複数の動作とが対応付けられた動作パターンテーブルを参照して、前記複数の動作のうちの、前記出力音声に一致する設定出力音声に応じた動作が実行されるように、前記ソフトウェアの制御を行う音声認識ステップ
を具備する音声通信方法。
請求項９〜１６のいずれかに記載の音声通信方法の各ステップを前記コンピュータに実行させるコンピュータプログラム。