JP5216114B2

JP5216114B2 - 通話区間検出装置、その方法、及びプログラム

Info

Publication number: JP5216114B2
Application number: JP2011044156A
Authority: JP
Inventors: 明夫神; 哲小橋川; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2013-06-19
Anticipated expiration: 2027-02-28
Also published as: JP2011155665A

Description

本発明は、複数の通話端末装置間で行われる通話の通話区間を検出する技術に関する。

音声信号のみから音声区間を推定する従来の方法として、１チャネルの音声信号のみを観測し、音声区間を推定するものがある。例えば、非特許文献１に示す方式では、１チャネルの音声信号からその周期性成分及び非周期性成分のパワーを抽出し、それらの比に基づいて音声区間（音声が存在する時間区間）と非音声区間（音声が存在しない時間区間）とを推定する。このような方法を用いれば、音声信号中の音声区間と非音声区間とを細かく推定することができる。

しかし、このような方法では、複数の通話端末装置間で通話が開始されてから終了するまでの区間（「通話区間」という）を推定することができない。通話区間と音声区間とは別の概念であり、通話区間に音声区間と非音声区間とが混在していることも多いからである。例えば、通話は話者間での発話のやり取りによって構成されるが、通常、発話と発話との間には非音声区間が存在する。また、１つの発話中に音声区間と非音声区間とが混在していることも多い。これに対し、非特許文献１には、１チャネルの音声信号から音声区間と非音声区間とを検出し、音声区間の開始時刻を通話区間の開始時刻とし、非音声区間が所定時間以上継続した時点を通話区間の終了時刻とし、通話区間を推定する方法も記載されている。

また、電話による通話の通話区間を推定する方法として、オンフック時とオフフック時に発生するわずかな音（「プチ」という音）を観測し、通話区間の開始と終了とを推定する方法がある。また、電話による通話の通話区間を推定する方式として、電話をかけた側の受話側チャネルで取得される呼び出し音（「プルルル」という音）や切断後の受話音（「プーッ、プーッ」という音）を観測し、通話区間の開始と終了とを推定する方法もある。

石塚健太郎、中谷智広、「信号周期性成分・非周期性成分の比を用いた耐雑音音声区間検出」、日本音響学会講演論文集２００６年９月（１−２−１８）

しかし、従来の通話区間を推定する方法では、通話区間を正確に推定できない場合がある。

例えば、１チャネルの音声信号から音声区間と非音声区間とを検出し、音声区間の開始時刻を通話区間の開始時刻とし、非音声区間が所定時間以上継続した時点を通話区間の終了時刻として通話区間を推定する方法の場合、発話以外の音声区間（例えば、咳払いや周囲雑音等）の開始時刻を通話区間の開始時刻として誤判定してしまう場合がある。また、この方法では１チャネルの音声信号のみを用いて通話区間を推定している。そのため、その推定に用いられたチャネルでは非音声区間が所定時間以上継続しているが他チャネルには音声区間が存在する状況（例えば、通話中に相手側の話を聞いている状況等）において、通話が終了したと誤判定してしまう場合もある。

また、オンフック時とオフフック時に発生するわずかな音を観測し、通話区間の開始と終了とを推定する方法の場合、オペレータの咳・くしゃみその他の雑音をオンフック時とオフフック時に発生する音であると誤って認識してしまったり、オンフック時とオフフック時に発生する音を見過ごしてしまったりして、通話区間を正確に推定できない場合がある。さらに、電話機から送話音と受話音のみをマイクロホンを用いずに直接ＰＣに取り込む場合には、オンフック時とオフフック時に発生する音を検出できない。

また、電話による通話の通話区間を推定する方式として、電話をかけた側の受話側チャネルで取得される呼び出し音や切断後の受話音を観測し、通話区間の開始と終了とを推定する方法には、呼び出し音や切断後の受話音を他の音声から聞き分けることが困難であり、その判定が確実とは言えないという問題点がある。また、この方法の場合、呼び出し音の後に通話が開始されずに通信が切断された場合であっても、通話がなかったことを判断することができない。さらに、相手から電話をかけられた場合（インバウンド時）には、受話側チャネルで呼び出し音が取得できないため、この方法では通話開始を検出できない。

本発明はこのような点に鑑みてなされたものであり、複数の通話端末装置間で行われる通話の通話区間を正確に推定することが可能な技術を提供することを目的とする。

本発明では上記課題を解決するために、通話を行う何れかの通話端末装置を基準とした送話側チャネル及び受話側チャネルの音声信号を用い、チャネル毎の音声区間と非音声区間とを検出し、検出した複数チャネルの音声区間と非音声区間との情報を用い、通話区間の開始を推定する。すなわち、或るチャネルの音声区間の開始時刻を第１起点とし、当該音声区間の開始時刻を除く或る時刻を第２起点とし、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネル音声区間の音声は通話の音声ではないと判断し、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在する場合に、上記第１起点又は上記第１起点の一定時間Ｔ４前を通話区間の開始時刻と推定する。

ここで、本発明では複数チャネルの音声区間と非音声区間との情報を用いて通話区間を検出しているため、オンフック時とオフフック時に発生するわずかな音のみを用いて通話区間を推定する場合に比べ、通話区間の推定精度が高い。

また、本発明では複数チャネルの音声区間と非音声区間との情報を用いて通話区間を検出しているため、通話区間の検出に、音声の種類を聞き分けるといった困難な判定を行う必要がない。その結果、呼び出し音や切断後の受話音を他の音声から聞き分けることを必要する方法に比べ、通話区間の推定精度が高い。また、本発明では複数チャネルの音声区間と非音声区間との情報を用いて通話区間を検出しているため、アウトバウンド時にもインバウンド時にも適用可能である。

また、本発明では複数チャネルの音声区間と非音声区間との情報を用いて通話区間を検出しているため、或るチャネルにおいて発話以外の音声区間が検出されても、他チャネルの音声区間の情報を用いることで、当該或るチャネルで検出された音声区間が発話以外の音声区間であることを知ることができる。その結果、発話以外の音声区間の開始時刻を通話区間の開始時刻として誤判定してしまうことを防止できる。

また、本発明では複数チャネルの音声区間と非音声区間との情報を用いて通話区間を検出しているため、或るチャネルでは非音声区間が継続しているが他チャネルには音声区間が存在する状況において、通話が終了したと誤判定してしまうことを防止できる。

また、本発明において好ましくは、或るチャネルの音声区間の開始時刻を第１起点とし、当該音声区間の開始時刻から一定時間Ｔ３後を第２起点とし、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネルの音声区間は通話区間ではないと判断し、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在する場合に、上記第１起点又は上記第１起点の一定時間Ｔ４前を通話区間の開始時刻として決定する。この場合、複数のチャネルでほぼ同時に発生（一定時間Ｔ３以内の違いで発生）した発話以外の音を通話中の発話であると誤認してしまうことを防止できる。

また、本発明において、或るチャネルの音声区間の開始時刻を第１起点とし、当該音声区間内の或る時刻を第２起点とし、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネル音声区間の音声は通話の音声ではないと判断し、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在する場合に、上記第１起点又は上記第１起点の一定時間Ｔ４前を通話区間の開始時刻として決定してもよい。

また、本発明において好ましくは、通話区間の開始時刻以降の或る音声区間内の或る時点から、一定時間Ｔ２以内に何れのチャネルにも他の音声区間が存在しないならば、当該或る音声区間の終了時刻を当該通話区間の終了時刻として決定し、当該或る音声区間内の或る時点から一定時間Ｔ２以内に何れかのチャネルに他の音声区間が存在するならば、少なくとも当該他の音声区間までが通話区間に含まれると決定する。これにより、或るチャネルでは非音声区間が継続しているが他チャネルには音声区間が存在する状況において、通話が終了したと誤判定してしまうことを防止できる。

また、通話区間の開始時刻以降の或る音声区間内の或る時点から、一定時間Ｔ２以内に特定の１チャネルに他の音声区間が存在しないならば、当該或る音声区間の終了時刻を当該通話区間の終了時刻として決定し、当該或る音声区間内の或る時点から一定時間Ｔ２以内に当該特定の１チャネルに他の音声区間が存在するならば、少なくとも当該他の音声区間までが通話区間に含まれると決定してもよい。

これらの通話区間の終了時点の判定において好ましくは、上記或る音声区間内の或る時点は、或る音声区間の終了時刻である。

また、好ましくは、通話区間の終了時刻が決定されるまで、異なる或る音声区間について、順次、これらの通話区間の終了時点の判定処理を実行する。

また、本発明において好ましくは、所定の時間区間であるフレームの単位でチャネル毎の音声の有無を検出し、同じチャネルの複数フレームで連続して音声が検出された場合にのみ、当該チャネルに音声区間が存在すると判断する。これにより、突発性（短時間に大きな電力が集中する雑音）の雑音を音声信号として認識してしまうことを防止できる。

以上のように本発明では、複数の通話端末装置間で行われる通話の通話区間を正確に推定することができる。

図１は、第１実施形態の通話区間推定装置の機能構成を例示したブロック図である。図２は、第１実施形態の通話区間推定装置を構成するためのハードウェア構成を例示したブロック図である。図３は、通話システムに通話区間推定装置を適用した例を示したブロック図である。図４は、第１実施形態の通話区間推定処理の概要を説明するためのフローチャートである。図５は、第１実施形態の通話区間推定処理の詳細を説明するためのフローチャートである。図６は、第１実施形態の通話区間推定処理のアルゴリズム例を説明するためのフローチャートである。図７は、第１実施形態の通話区間推定処理のアルゴリズム例を説明するためのフローチャートである。図８は、第１実施形態の通話区間推定処理によって通話区間の開始を正しく推定できる理由を説明するための図である。図９は、第１実施形態の通話区間推定処理によって通話区間の開始を正しく推定できる理由を説明するための図である。図１０は、第１実施形態の通話区間推定処理によって通話区間の開始を正しく推定できる理由を説明するための図である。図１１は、第１実施形態の通話区間推定処理によって通話区間の開始を正しく推定できる理由を説明するための図である。図１２は、第１実施形態の通話区間推定処理を概念的に示すための図である。図１３は、第１実施形態の通話区間推定処理を概念的に示すための図である。図１４は、第１実施形態の通話区間推定処理を概念的に示すための図である。図１５は、第２実施形態の通話区間推定装置の構成を例示したブロック図である。図１６は、第２実施形態の通話区間推定処理の詳細を説明するためのフローチャートである。図１７は、第２実施形態の通話区間推定処理の通話区間の終了を判定するためのアルゴリズム例を説明するためのフローチャートである。図１８は、第２実施形態の通話区間推定処理を概念的に示すための図である。図１９は、第２実施形態の通話区間推定処理を概念的に示すための図である。図２０は、第３実施形態の実施例１の音声検出処理を説明するためのフローチャートである。図２１は、図２０の処理例を説明するための図である。図２２は、第３実施形態の実施例２を概念的に説明するための図である。図２３は、第３実施形態の実施例２の通話区間推定処理例を説明するためのフローチャートである。図２４は、第３実施形態の実施例２の通話区間推定処理例を説明するためのフローチャートである。図２５は、第４実施形態の通話区間推定処理を概念的に示すための図である。

以下、本発明を実施するための最良の形態を図面を参照して説明する。
本発明は、複数の通話端末装置間で行われる通話の通話区間を検出する発明であり、何れかの通話端末装置を基準とした送話側チャネルの音声信号と受話側チャネルの音声信号とが入力され、入力された複数チャネルの音声信号を用い、チャネル毎の音声区間と非音声区間とを検出し、検出した複数チャネルの音声区間と非音声区間との情報を用い、通話区間を検出する発明である。しかし、以下では説明の簡略化のため、一例として２個の通話端末装置間で行われる通話の通話区間を検出する形態について説明する。すなわち、以下では、何れかの通話端末装置を基準とした送話側チャネルの音声信号と受話側チャネルの音声信号とが入力され、入力された２チャネルの音声信号を用い、チャネル毎の音声区間と非音声区間とを検出し、検出した２チャネルの音声区間と非音声区間との情報を用い、通話区間を検出する実施形態について説明する。本発明は以下の各実施形態に限定されない。

〔第１実施形態〕
まず、本発明の第１実施形態について説明する。
＜通話区間推定装置の構成＞
図１は、本形態の通話区間推定装置１０の機能構成を例示したブロック図である。また、図２は、本形態の通話区間推定装置１０を構成するためのハードウェア構成を例示したブロック図である。
図２に例示するように、この例の通話区間推定装置１０を構成するためのハードウェアは、ＣＰＵ（Central Processing Unit）１０ａと、入力部１０ｂと、出力部１０ｃと、ＲＡＭ（Random Access Memory）１０ｄと、ＲＯＭ（Read Only Memory）１０ｅと、補助記憶装置１０ｆと、バス１０ｇとを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有している。また、入力部１０ｂは、例えば、音声信号が入力される入力ポート、マイクロホン等であり、出力部１０ｃは、音声信号その他のデータを出力する出力ポート等である。補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、本形態の通話区間推定装置１０の処理をＣＰＵ１０ａに実行させるための通話区間推定プログラムが格納されるプログラム領域１０ｆａ、音声信号その他のデータが格納されるデータ領域１０ｆｂを有している。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、通話区間推定プログラムが格納されるプログラム領域１０ｄａ、音声信号その他のデータが格納されるデータ領域１０ｄｂを有している。また、バス１０ｇは、ＣＰＵ１０ａと、入力部１０ｂと、出力部１０ｃと、ＲＡＭ１０ｄと、ＲＯＭ１０ｅと、補助記憶装置１０ｆとを通信可能に接続している。

この例のＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムを、ＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データをＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。さらに、ＣＰＵ１０ａは、当該プログラムや各種データが書き込まれたＲＡＭ１０ｄ上のアドレスをレジスタ１０ａｃに格納する。そして、ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。

図１は、このようにＣＰＵ１０ａにプログラムが読み込まれて実行されることにより構成される通話区間推定装置１０の構成を例示したブロック図である。
図１に例示するように、本形態の通話区間推定装置１０は、音声入力部１１と音声検出部１２と通話区間推定部１３と制御部１４と記憶部１５とを有する。また、通話区間推定部１３は、通話区間開始判定部１３ａと通話区間終了判定部１３ｂとデータ制御部１３ｃとメモリ１３ｄとを有する。

なお、通話区間推定装置１０は、制御部１４の制御のもと各処理を実行する。また、各データは逐一記憶部に記憶され、必要に応じて読みだされる。また、音声入力部１１には、何れかの通話端末装置を基準とした送話側チャネル５１の音声信号s₁(t)（tは時間）と受話側チャネル５２の音声信号s₂(t)とが入力される。ここで、「チャネル」とは音声信号の処理系列を意味する。また、図１における矢印はデータの流れを示すが、制御部１４及び記憶部１５に入出力されるデータの流れの記載は省略してある。

＜通話区間推定装置の適用例＞
本形態の通話区間推定装置１０は、複数の通話端末装置間で通話がなされる通話システムに適用される。図３は、このような通話システム１００に通話区間推定装置１０を適用した例を示したブロック図である。
図３の例の通話システム１００は、２つの電話機１０１、１０２（「通話端末装置」の一例）と、音声出力装置１２０と、上述のように計算機（ＰＣ）上で構成される通話区間推定装置１０と、計算機（ＰＣ）上で構成される音声認識装置１３１と、音声を録音する音声録音装置１３２とを有している。なお、音声出力装置１２０は、例えば、電話機１０２から出力されたアナログ音声信号をデジタル信号に変換して出力する音声アダプター等である。ここで、電話機１０２と音声出力装置１２０と通話区間推定装置１０とは、それぞれ、電話機１０２を基準とした送話側チャネル５１と受話側チャネル５２とを持つ回線によって直列に接続される。なお、回線の例としては、例えば、ＵＳＢ（universal serial bus）ケーブルやＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）がある。さらに、通話区間推定装置１０は、当該両チャネルのデータを音声認識装置１３１と音声録音装置１３２に転送可能なようにこれらと接続されている。
なお、図３の構成はあくまで一例である。例えば、図３の変形例として、通話区間推定装置１０や音声認識装置１３１を１台の計算機（ＰＣ）上で実現してもよいし、音声認識装置１３１や音声録音装置１３２が存在しない構成であってもよい。

＜通話区間推定処理＞
次に、本形態の通話区間推定処理について説明する。
［処理の概要］
図４は、本形態の通話区間推定処理の概要を説明するためのフローチャートである。なお、図４の各ステップはそれぞれ並列に実行可能であるが、以下では、説明の便宜上、各ステップを順次説明していく。
まず、ステップＳ１（音声入力過程）では、何れかの通話端末装置を基準とした送話側チャネル５１の音声信号と受話側チャネル５２の音声信号とが通話区間推定装置１０の音声入力部１１に入力される（ステップＳ１）。図３の例では、電話機１０１，１０２間の通話音声である送話側チャネル５１の音声信号s₁(t)と受話側チャネル５２の音声信号s₂(t)とが音声入力部１１に入力される。より具体的な例として、電話機１０２を用いるオペレータと電話機１０１を用いる顧客とが通話を行う場合には、送話側チャネル５１のオペレータの音声信号s₁(t)と、受話側チャネル５２の顧客の音声信号s₂(t)とが音声入力部１１に入力される。

ステップＳ２（音声検出過程）では、ステップＳ１（音声入力過程）で入力された２チャネルの音声信号を用い、音声検出部１２が、チャネル毎の音声区間と非音声区間とを検出する（ステップＳ２）。より具体的には、例えば、音声検出部１２が、音声入力部１１に入力されたオペレータの音声信号s₁(t)と顧客の音声信号s₂(t)との各々から、逐次（例えば一定時間毎に一定時間周期で）音声信号を所定の時間区間（フレーム）で切り出し、何らかの音声・非音声判別方法を用い、各フレームの音声信号が音声であるか非音声であるか（各フレームが音声区間であるか非音声区間であるか）をチャネル毎に判別する。なお、音声か非音声かの判別には、例えば、非特許文献１等の公知の方法を用いればよい。また、音声信号が音声である時間区間を音声区間と呼び、非音声である時間区間を非音声区間と呼ぶ。

ステップＳ３（通話区間推定過程）では、通話区間推定部１３が、ステップＳ２（音声検出過程）で検出された２チャネルの音声区間と非音声区間との情報を用い、通話区間を検出する（ステップＳ３）。具体的には、例えばまず、通話区間推定部１３に、上記のオペレータの音声信号s₁(t)と顧客の音声信号s₂(t)が各フレームにおいて音声か非音声かの判別結果（各フレームが音声区間であるか非音声区間であるかの判別結果）が逐次（例えば０．５秒毎）に入力される。そして、この例の通話区間推定部１３は、逐次入力される各チャネルの音声か非音声かの判別結果をもとに、通話区間を推定する。

その後、図３の例では、推定された通話区間に基づき、通話区間内の音声信号のみを音声認識装置１３１へ送り、それらの音声認識を行ったり、通話区間内の音声信号のみを音声録音装置１３２に送って通話録音を実行し、記憶装置などに通話音声データを保存したりすることができる。

［処理の詳細］
次に、本形態の処理の詳細を説明する。
前述のように、音声入力部１１に入力された送話側チャネル５１の音声信号s₁(t)と受話側チャネル５２の音声信号s₂(t)とは、それぞれ音声検出部１２に入力され、音声検出部１２は、音声信号s₁(t)，s₂(t)から切り出した各フレームが音声区間であるか非音声区間であるかをチャネル毎に判別する。以下では、送話側チャネル５１の音声区間判別結果をx₁(n)と表現し、受話側チャネル５２の音声区間判別結果をx₂(n)と表現する。ここで、nは切り出されたフレームの番号を示し、フレーム番号nのフレームを「フレームn」と表現する。また、x₁(n)=1は送話側チャネル５１のフレームnが音声区間であることを示し、x₂(n)=1は受話側チャネル５２のフレームnが音声区間であることを示す。一方、x₁(n)=0は送話側チャネル５１のフレームnが非音声区間であることを示し、x₂(n)=0は受話側チャネル５２のフレームnが非音声区間であることを示す。

このような送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とは、逐次、通話区間推定部１３に転送される。また、例えば音声認識や音声録音の目的のため、送話側チャネル５１の音声信号s₁(n)と受話側チャネル５２の音声信号s₂(n)とが、逐次、通話区間推定部１３に転送され、通話区間推定部１３のデータ制御部１３ｃを通じて音声認識装置や音声録音装置等へ送られる。なお、データ制御部１３ｃは、音声信号s₁(n)，s₂(n)が転送される度にそれらを音声認識装置や音声録音装置等へ送信してもよいし、音声認識や音声録音等を行う音声信号s₁(n)，s₂(n)のみを音声認識装置や音声録音装置等へ送信してもよい。また、音声信号s₁(n)は、フレームnに含まれる各時間ｔの音声信号s₁(t)の列（ベクトル）であり、音声信号s₂(n)は、フレームnに含まれる各時間ｔの音声信号s₂(t)の列（ベクトル）である。

［通話区間推定処理（ステップＳ３）の詳細］
以下、通話区間推定部１３の通話区間推定処理（ステップＳ３）の詳細を説明する。
図５は、通話区間推定処理（ステップＳ３）の詳細を説明するためのフローチャートである。
まず、通話区間開始判定部１３ａ（図１）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、当該処理対象のフレームｎについて、何れかのチャネルに音声区間が検出されたか否かを判定する（ステップＳ１１）。

ここで、何れのチャネルにも音声区間がなかった場合（x₁(n)=0かつx₂(n)=0）、制御部１４は、処理対象のフレームnを更新して（ステップＳ１２）、処理をステップＳ１１に戻す。

一方、何れかのチャネルに音声区間があった場合（x₁(n)=1及び／又はx₂(n)=1）、通話区間開始判定部１３ａは、音声区間であると判断したフレームの開始時刻である音声区間開始時刻n_sをデータ制御部１３ｃに送る。この音声区間開始時刻n_sは、通話が開始された可能性が高いと判断した時点になる。データ制御部１３ｃは、送られた音声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の処理開始指示を出力する（ステップＳ１３）。図３の例では、音声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の音声認識処理開始指示を音声認識装置１３１に出力したり、声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の録音開始指示を音声録音装置１３２に出力したりする。これにより、音声認識装置１３１や音声録音装置１３２は、音声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の音声認識や音声録音の動作を開始する。

ステップＳ１３の次に、通話区間開始判定部１３ａは、音声区間検出チャネルc_sの音声区間の開始時刻n_sから一定時間T3後を起点とし、そこから一定時間Ｔ１以内に別のチャネルの音声区間が存在するか否かを判断する（ステップＳ１４）。例えば、音声区間開始チャネルc_sが送話側チャネル５１であった場合、通話区間開始判定部１３ａは、音声区間の開始時刻n_sから一定時間T3後を起点とし、そこから一定時間T1以内に受話側チャネル５２の音声区間が存在するか否かを判定する。なお、一定時間T3は、わずかな時間であり、例えば０.２秒でもよいし、０秒でもよい。また、T1は例えば２０秒などとする。

この判断において別のチャネルの音声区間が存在しないと判断された場合、通話区間開始判定部１３ａは、音声区間開始時刻n_sを開始時刻とする音声区間が通話区間でない（非通話）と判断し、その判断結果を示す通話開始判定結果j_sをデータ制御部１３ｃに送る。データ制御部１３ｃは、処理の解除命令を出力する（ステップＳ１５）。図３の例では、音声信号s₁(n),s₂(n)の音声認識処理中止指示を音声認識装置１３１に出力したり、音声信号s₁(n),s₂(n)の録音中止指示を音声録音装置１３２に出力したりする。これにより、音声認識装置１３１が音声認識処理を中止したり、音声録音装置１３２が音声録音を中止したりする。その結果、音声認識処理を中止する場合には、音声認識装置１３１が無駄な処理を行ってしまうことを防止できる。また、音声録音を中止する際には、無駄な録音データを保存せずに済むため、必要なデータ保存領域を必要最小限に抑えることができる。また、ステップＳ１５の後はステップＳ１２の処理に戻る。

一方、ステップＳ１４の判断において別のチャネルの音声区間が存在すると判断された場合、通話区間開始判定部１３ａは、音声区間開始時刻n_sが通話区間の開始時刻であると判断し、当該音声区間開始時刻n_sを開始時刻とする音声区間が通話区間に含まれると判定する（ステップＳ１６）。この場合、音声認識装置１３１や音声録音装置１３２の処理は継続される。

次に、音声区間終了判定部１３ｂ（図１）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間T2以内に何れかのチャネルに他の音声区間が存在するか否かを判断する（ステップＳ１７）。なお、一定時間Ｔ２は例えば６０秒などとする。

ここで、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間Ｔ２以内に何れかのチャネルに他の音声区間が存在すると判断された場合には、音声区間終了判定部１３ｂは、まだ通話が継続しており、少なくとも当該他の音声区間が通話区間に含まれると判定し（ステップＳ１８）、処理がステップＳ１７に戻される。

一方、ステップＳ１７で、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間Ｔ２以内に何れかのチャネルに他の音声区間が存在しないと判断された場合には、音声区間終了判定部１３ｂは、当該他の音声区間の終了時刻n_e又は現時点を通話区間の終了時刻と決定し、その旨を示す通話終了判定結果j_eをデータ制御部１３ｃに送る。これを受けたデータ制御部１３ｃは、処理終了と判断して処理終了命令を出力し（ステップＳ１９）、処理がステップＳ１２に戻される。図３の例では、データ制御部１３ｃは、処理終了命令を音声認識装置１３１や音声録音装置１３２に送り、これを受けた音声認識装置１３１や音声録音装置１３２はそれぞれの処理を終了する。

［通話区間推定処理（ステップＳ３）のアルゴリズム例］
次に、通話区間推定処理（ステップＳ３）のアルゴリズムを例示する。
図６，図７は、通話区間推定処理（ステップＳ３）のアルゴリズム例を説明するためのフローチャートである。
まず、通話区間開始判定部１３ａ（図１）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、両チャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ３１）。

ここで、何れのチャネルにも音声区間がなかった場合（x₁(n)=0かつx₂(n)=0）（ステップＳ３２）、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新して（ステップＳ３３）、処理をステップＳ３１に戻す。
一方、何れかのチャネルで音声区間が検出された場合（x₁(n)=1及び／又はx₂(n)=1）（ステップＳ３２）、通話区間開始判定部１３ａは、音声区間が検出されたチャネルを示す情報である音声区間開始チャネルc_sと、音声区間であると判断したフレームの開始時刻である音声区間開始時刻n_sとをメモリ１３ｄに格納する。また、この場合、通話区間開始判定部１３ａは、音声区間開始時刻n_sをデータ制御部１３ｃに送る。データ制御部１３ｃは、送られた音声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の処理開始指示を出力する（ステップＳ３４）。

その後、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新する（ステップＳ３５）。そして、通話区間開始判定部１３ａは、音声検出部１２から転送された音声区間判別結果x₁(n)又は音声区間判別結果x₂(n)とメモリ１３ｄから読み出した音声区間開始チャネルc_sとを用い、音声区間が検出された音声区間開始チャネルc_s以外のチャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ３６）。

ここで、処理対象のフレームy(n)の音声信号が音声区間でなかったと判定された場合（ステップＳ３７）、通話区間開始判定部１３ａは、処理対象のフレームy(n)は、音声区間が検出されたチャネルc_sの音声区間の開始時刻n_sから一定時間Ｔ３後を起点とし、そこから一定時間Ｔ１以内の時間区間に属するフレームであるか否かを判定する（ステップＳ３８）。ステップＳ３８で、処理対象のフレームy(n)が、当該起点から一定時間Ｔ１以内の時間区間に属するフレームであると判定された場合には、処理がステップＳ３５に戻される。一方、ステップＳ３８で、処理対象のフレームy(n)が、当該起点から一定時間Ｔ１以内の時間区間に属するフレームでないと判定された場合には、通話区間開始判定部１３ａは、音声区間開始時刻n_sを開始時刻とする音声区間が通話区間でない（非通話）と判断し、その判断結果を示す通話開始判定結果j_sをデータ制御部１３ｃに送る。データ制御部１３ｃは、処理の解除命令を出力し（ステップＳ３９）、その後、処理がステップＳ３３に戻される。

一方、ステップＳ３７で、処理対象のフレームy(n)の音声信号が音声区間であったと判定された場合（ステップＳ３７）、通話区間開始判定部１３ａは、音声区間開始時刻n_sが通話区間の開始時刻であると判断し、当該音声区間開始時刻n_sを開始時刻とする音声区間が通話区間に含まれると判定する（ステップＳ４０）。

ステップＳ４０の判定がなされた場合、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ４１）、通話区間終了判定部１３ｂ（図１）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、両チャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ４２）。

ここで、何れかのチャネルで音声区間が検出された場合（x₁(n)=1及び／又はx₂(n)=1）（ステップＳ４３）、通話区間終了判定部１３ｂは、少なくとも当該音声区間が通話区間に含まれると判定し、当該音声区間の終了時刻n_eをメモリ１３ｄに格納する。そして、処理がステップＳ４１に戻される（ステップＳ４４）。

一方、何れのチャネルにも音声区間が検出されなかった場合（x₁(n)=0かつx₂(n)=0）には（ステップＳ４３）、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ４５）、通話区間終了判定部１３ｂが、音声区間判別結果x₁(n)と音声区間判別結果x₂(n)とを用い、両チャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ４６）。

ここで、何れかのチャネルで音声区間が検出された場合（x₁(n)=1及び／又はx₂(n)=1）（ステップＳ４７）、処理がステップＳ４４に移される。一方、何れのチャネルにも音声区間が検出されなかった場合（x₁(n)=0かつx₂(n)=0）には（ステップＳ４７）、通話区間終了判定部１３ｂは、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された（ステップＳ４４）音声区間の終了時刻n_eから一定時間Ｔ２以内であるか否かを判定する（ステップＳ４８）。ここで、次の処理対象のフレームy(n+1)が「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内であると判定された場合には、処理がステップＳ４５に戻される。一方、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内でないと判定された場合には、通話区間終了判定部１３ｂは、当該音声区間の終了時刻n_e又は現時点を通話区間の終了時刻と決定し、その決定内容を示す通話終了判定結果j_eをデータ制御部１３ｃに送る。これを受けたデータ制御部１３ｃは、処理終了と判断して処理終了命令を出力する（ステップＳ４９）。その後、処理がステップＳ３３に戻される。

＜通話区間を正しく推定できる理由＞
次に、上述のような通話区間推定処理によって通話区間を正しく推定できる理由について説明する。

［通話区間の開始を正しく推定できる理由］
図８〜図１１は、本形態の通話区間推定処理によって通話区間の開始を正しく推定できる理由を説明するための図である。以下、これらの図を用いて通話区間の開始を正しく推定できる理由を説明する。
図３に例示した通話システム１００において、電話機１０２を使用する送話者と、電話機１０１を使用する受話者のうちどちらか１話者の発話が開始された場合を想定する。この場合、図８に例示するように、発話が開始した側のチャネルＡの音声区間が検出され（図４：ステップＳ１１）、その音声区間開始時刻n_s以降のフレームnの音声信号s₁(n),s₂(n)の音声認識処理や音声録音処理等の開始指示が出される（ステップＳ１３）。そして、その音声区間の開始時刻n_sからわずかな一定時間T3（例えば０．２秒。ただし０秒でも良い。）の後を起点とし、そこから一定時間T1（例えば２０秒）以内に別のチャネルＢにも音声区間があるため（発話があるため）（ステップＳ１４）、その時点でチャネルＡで検出された音声区間は確かに通話区間に含まれると判断し、音声区間の開始時刻n_sを通話区間の開始時刻と推定する（ステップＳ１６）。この場合、音声認識処理や音声録音処理等の処理が継続される。

このように、チャネルＡの発話区間を検出した時点から、音声認識装置１３１や音声録音装置１３２に音声認識処理や音声録音処理等を実行させることで、リアルタイムで通話音声の音声認識結果を得たり、通話音声を漏らさず記録したりすることができる。なお、このような音声認識処理は、例えば、通話記録の自動文章化などに利用できる。

ここで、本形態では複数チャネルでの通話があって初めて通話であると判断するため、通話が開始されたことを確実に判断することができ、通話でない場合（例えば、話者による咳払いなど）には正確に通話ではないと判断することができる。以下にその詳細を示す。
図３に例示した通話システム１００において、電話機１０２を使用する送話者が通話を行っていないときに咳払いを行った状況を想定する。この場合、図９に例示するように、咳払いを行った話者側のチャネルＡの音声区間が検出され（図４：ステップＳ１１）、その音声区間開始時刻n_s以降のフレームnの音声信号s₁(n),s₂(n)の音声認識処理や音声録音処理等の開始指示が出される（ステップＳ１３）。そして、その音声区間の開始時刻n_sからわずかな一定時間T3（例えば０．２秒。ただし０秒でも良い。）の後を起点とし、そこから一定時間T1（例えば２０秒）以内に別のチャネルＢに音声区間は存在しないため（発話がないため）（ステップＳ１４）、その時点でチャネルＡで検出された音声区間は通話区間ではないと判断され、音声認識処理や音声録音処理等の処理が中止される（ステップＳ１５）。この場合、音声認識装置１３１の処理をT1が経過した時点で停止し、また、音声録音装置１３２で記録した録音データを棄却すれば、誤検出による音声録音処理の演算量の無駄やデータ記憶領域の無駄を軽減することができる。また、このような本形態の特徴は、一方のチャネルに高いレベルの周囲雑音等が長時間入力される場合に特に効果的である。このような場合、非特許文献１の従来方式では、長時間の周囲雑音等の区間を全て通話区間と誤認し、その区間に対して音声認識処理等を実行してしまうが、本形態ではそのような誤作動区間を一定時間T1に抑制できるからである。

また、本形態において、T3を０よりも大きくとる（T3>0）ことにより、両チャネルで同時に発生した雑音等を通話音声であると誤認してしまうことを防止できる。以下にその詳細を示す。
図３に例示した通話システム１００において、両チャネルに同時に突発的な雑音（例えば、電話機１０２に図示していないヘッドセットのピンジャック端子を抜き差しする際に発生するノイズなど）が発生してしまった状況を想定する。また、当該突発的な雑音の継続時間はT3未満であるとする。この場合、図１０に例示するように、まずチャネルＡの音声区間が検出され（図４：ステップＳ１１）、その音声区間開始時刻n_s以降のフレームnの音声信号s₁(n),s₂(n)の音声認識処理や音声録音処理等の開始指示が出される（ステップＳ１３）。そして、その音声区間の開始時刻n_sからわずかな一定時間T3（例えば０．２秒）の後を起点とし、そこから一定時間T1（例えば２０秒）以内に別のチャネルＢに音声区間は存在しないため（ステップＳ１４）、その時点でチャネルＡで検出された音声区間は通話区間ではないと判断され、音声認識処理や音声録音処理等の処理が中止される（ステップＳ１５）。図１１に、この場合の全体の流れを示す。

［通話区間の終了を正しく推定できる理由］
次に、通話区間の終了を正しく推定できる理由について説明する。図１２に例示するように、本形態では、通話であると判断（ステップＳ１６）された後、通話区間に含まれると決定された音声区間が終了した時点から一定時間T2（例えば６０秒）以内に両チャネルともに音声区間が存在しなければ（ステップＳ１７）、最後の音声区間の終了時刻n_e（T2のカウント開始時）又はT2時間が経過した時点（T2のカウント終了時）で通話が終了したと判断する（ステップＳ１９）。この判断は「両チャネルともに長時間無音が続く状態は通話終了後に違いない」という経験的事実によるものであり、妥当なものである。なお、通話終了と判断した後には音声認識装置１３１における音声認識処理を終了したり、音声録音装置１３２における通話録音処理を終了して録音データを保存したりすればよい。

また、図１３に例示するように、本形態では、通話終了でないと判断された場合（ステップＳ１７）には、通話区間に含まれると判断された音声区間（VS（発話開始）からVE（発話終了）までの区間）が終了した時刻n_eから一定時間T2以内に次の音声区間があるか否かを判定し、音声区間があれば、その後通話終了と判断できるまで同じ判定処理を繰り返す（ステップＳ１７，Ｓ１８）。すなわち、通話区間の終了時刻が決定されるまで、異なる或る音声区間について、順次、ステップＳ１７，Ｓ１８の処理が実行される。

また、本形態では、通話区間に含まれると決定された音声区間の終了時刻n_eから一定時間T2以内に何れかのチャネルに他の音声区間が存在する場合に通話継続中と判断し、通話終了と判断されるまでこの処理を繰り返す（ステップＳ１７，Ｓ１８）。図１４に、この場合の全体の流れを示す。このように両チャネルの情報を用いて通話終了の判断を行っているため、チャネルＡの話者がチャネルＢの話者の話を長時間聞き続けており無言であったとしても、誤って通話終了と判断されることを防止できる。その結果として、両チャネルの情報を用いて通話終了の判断を行う本形態では、１チャネルの情報のみを用いて通話終了の判断を行う場合よりも、T2の長さを短くすることができる。１チャネルの情報のみを用いて通話終了の判断を行う場合には、チャネルＡの話者がチャネルＢの話者の話を無言で長時間聞き続けている際に通話終了と判断されてしまう誤りを避けるため、T2を長くする必要があるからである。

〔第２実施形態〕
次に、本発明の第２実施形態について説明する。
＜通話区間推定装置の構成＞
本形態は第１実施形態の変形例であり、通話区間の終了を判断する際、特定の１チャネルの音声区間判別結果のみを用いる点が第１実施形態と相違する。以下では第１実施形態との第１実施形態との相違点を中心に説明し、第１実施形態と共通する事項については説明を省略する。

図１５は、第２実施形態の通話区間推定装置２００の構成を例示したブロック図である。なお、第２実施形態の通話区間推定装置２００もＣＰＵにプログラムが読み込まれて実行されることにより構成されるものである。
図１５に例示するように、本形態の通話区間推定装置２００は、音声入力部１１と音声検出部１２と通話区間推定部２１３と制御部１４と記憶部１５とを有する。また、通話区間推定部１３は、通話区間開始判定部１３ａと通話区間終了判定部２１３ｂとデータ制御部１３ｃとメモリ１３ｄとを有する。すなわち、第１実施形態の通話区間終了判定部１３ｂが通話区間終了判定部２１３ｂに置換された構成である。

＜通話区間推定処理＞
次に、本形態の通話区間推定処理について説明する。
処理の全体は第１実施形態で図４に例示したものと同様である。相違点は、通話区間推定処理（図４：ステップＳ３）における、通話区間の終了時点の判断のみである。

［通話区間推定処理（ステップＳ３）の詳細］
以下、通話区間推定部２１３の通話区間推定処理（ステップＳ３）の詳細を説明する。
図１６は、本形態の通話区間推定処理（ステップＳ３）の詳細を説明するためのフローチャートである。
本形態の通話区間の開始を判定するための処理（ステップＳ１０１からＳ１０６までの処理）は、第１実施形態の処理（図５：ステップＳ１１からＳ１６までの処理）と同じであるため説明を省略する。

ステップＳ１０６で通話区間の開始時刻の決定後、通話区間の終了判定処理が開始される。まず、音声区間終了判定部２１３ｂ（図１５）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間T2以内に特定の１チャネル（送話側チャネル５１又は受話側チャネル５２）に他の音声区間が存在するか否かを判断する（ステップＳ１０７）。

ここで、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間Ｔ２以内に上記特定の１チャネルに他の音声区間が存在すると判断された場合には、音声区間終了判定部２１３ｂは、まだ通話が継続しており、少なくとも当該他の音声区間が通話区間に含まれると判定し（ステップＳ１０８）、処理がステップＳ１０７に戻される。

一方、ステップＳ１０７で、通話区間に含まれると判断された音声区間の終了時刻n_eから一定時間Ｔ２以内に上記特定の１チャネルに他の音声区間が存在しないと判断された場合には、音声区間終了判定部２１３ｂは、当該他の音声区間の終了時刻n_e又は現時点を通話区間の終了時刻と決定し、その旨を示す通話終了判定結果j_eをデータ制御部１３ｃに送る。これを受けたデータ制御部１３ｃは、処理終了と判断して処理終了命令を出力し（ステップＳ１０９）、処理がステップＳ１０２に戻される。

［通話区間推定処理（ステップＳ３）のアルゴリズム例］
次に、本形態の通話区間推定処理（ステップＳ３）のアルゴリズムを例示する。
本形態の通話区間の開始を判定するためのアルゴリズムは、第１実施形態の処理（図６：ステップＳ３１からＳ３８までの処理）と同じであるため説明を省略する。以下では、通話区間の終了を判定するためのアルゴリズム例について説明する。
図１７は、本形態の通話区間推定処理（ステップＳ３）の通話区間の終了を判定するためのアルゴリズム例を説明するためのフローチャートである。

第１実施形態と同様に、通話区間開始判定部１３ａが、音声区間開始時刻n_sが通話区間の開始時刻であると判断し、当該音声区間開始時刻n_sを開始時刻とする音声区間が通話区間に含まれると判定（ステップＳ１３０）した後、以下の処理が開始される。

まず、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ１３１）、通話区間終了判定部２１３ｂ（図１５）が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、両チャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ１３２）。

ここで、何れかのチャネルで音声区間が検出された場合（x₁(n)=1及び／又はx₂(n)=1）（ステップＳ１３３）、通話区間終了判定部２１３ｂは、少なくとも当該音声区間が通話区間に含まれると判定し、当該音声区間の終了時刻n_eをメモリ１３ｄに格納する。そして、処理がステップＳ１３１に戻される（ステップＳ１３４）。
一方、何れのチャネルにも音声区間が検出されなかった場合（x₁(n)=0かつx₂(n)=0）には（ステップＳ１３３）、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ１３５）、通話区間終了判定部１３ｂが、音声区間判別結果x₁(n)又は音声区間判別結果x₂(n)の何れかを用い、特定の１つのチャネルについて、処理対象のフレームy(n)の音声信号が音声区間のものであるか否かを判定する（ステップＳ１３６）。

ここで、特定の１つのチャネルで音声区間が検出された場合（例えば、「特定の１つのチャネル」が送話側チャネル５１ならばx₁(n)=1の場合）（ステップＳ１３７）、処理がステップＳ４４（図７）に移される。一方、当該特定の１つのチャネルに音声区間が検出されなかった場合（例えば、「特定の１つのチャネル」が送話側チャネル５１ならばx₁(n)=0の場合）には（ステップＳ１３７）、通話区間終了判定部２１３ｂは、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内であるか否かを判定する（ステップＳ１３８）。ここで、次の処理対象のフレームy(n+1)が「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内であると判定された場合には、処理がステップＳ４５（図７）に戻される。一方、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内でないと判定された場合には、通話区間終了判定部２１３ｂは、当該音声区間の終了時刻n_e又は現時点を通話区間の終了時刻と決定し、その決定内容を示す通話終了判定結果j_eをデータ制御部１３ｃに送る。これを受けたデータ制御部１３ｃは、処理終了と判断して処理終了命令を出力する（ステップＳ１３９）。その後、処理がステップＳ３３（図７）に戻される。

＜通話区間の終了を正しく推定できる理由＞
次に、本形態において通話区間の終了を正しく推定できる理由について説明する。
図１８は、本形態において通話区間の終了を正しく推定できる理由を説明するための図である。図１８に例示するように、本形態では、通話であると判断（ステップＳ１０６）された後、通話区間に含まれると決定された音声区間が終了した時点から一定時間T2（例えば６０秒）以内に特定の１つのチャネルＡに音声区間が存在しなければ（ステップＳ１０７）、最後の音声区間の終了時刻n_e（T2のカウント開始時）又はT2時間が経過した時点（T2のカウント終了時）で通話が終了したと判断する（ステップＳ１０９）。本形態の方法は、「通常の音声通話ならばどちらの話者も長時間黙っていることはないため、1話者において長時間無音が観測されれば通話は終了していると判断してよい」との経験的事実に基づくものである。

また、図１９に例示するように、本形態では、通話終了でないと判断された場合（ステップＳ１０７）には、通話区間に含まれると判断された音声区間が終了した時刻n_eから一定時間T2以内にチャネルＡに次の音声区間があるか否かを判定し、音声区間があれば、その後通話終了と判断できるまで同じ判定処理を繰り返す（ステップＳ１０７，Ｓ１０８）。すなわち、通話区間の終了時刻が決定されるまで、異なる或る音声区間について、順次、ステップＳ１０７，Ｓ１０８の処理が実行される。

〔第３実施形態〕
次に、本発明の第３実施形態について説明する。
本形態は、第１，２実施形態の変形例であり、突発性雑音を音声区間と誤って検出することを防ぐことが可能な形態である。第１，２実施形態では、音声検出部１２（図１，図１５）が、各チャネルでフレーム毎に音声区間（x₁(n)=1,x₂(n)=1）であるか非音声区間（x₁(n)=0,x₂(n)=0）であるかを判別する方法を説明した。しかし、このような方法では突発性の雑音（短時間に大きな電力が集中する雑音）を音声として誤検出してしまう場合がある。第３実施形態では、このような誤検出を防ぐために、同じチャネルの複数フレームで連続して音声が検出された場合にのみ、当該チャネルに音声区間が存在すると判断する。これは、突発性の雑音と比べ、音声が長時間にわたって連続して安定した大きなパワーを持つという性質を利用したものである。
以下では、このような方法について２つの実施例を説明する。

実施例１は、音声検出部において、同じチャネルの複数フレームで連続して一定時間以上音声が検出された場合にのみ、それらのフレームが音声区間であると判定する実施例である。この場合、通話区間推定部１３，２１３の構成は第１，２実施形態と同じでよいが、音声検出部１２においてこのような判定を行う結果、通話区間推定部１３，２１３は、同じチャネルの複数フレームで連続して音声が検出された場合にのみ、当該チャネルに音声区間が存在すると判断することになる。

図２０は、第３実施形態の実施例１の音声検出処理を説明するためのフローチャートである。
まず、制御部１４がi=0とし（ステップＳ１５１）、音声検出部がフレームy(n)の音声信号が音声区間であるか否かを判定する（ステップＳ１５２）。なお、この判定には、例えば非特許文献１のような公知の方法を用いることができる。ここで、フレームy(n)の音声信号が音声区間でないと判断された場合、制御部１４がn+1を新たなnとして処理対象のフレームnを更新し（ステップＳ１５４）、処理をステップＳ１５１に戻す。一方、フレームy(n)の音声信号が音声区間であると判定された場合、制御部１４がi+1を新たなiとし（ステップＳ１５５）、i≧Tを満たすか否かを判定する（ステップＳ１５６）。なお、この例のTは２以上の自然数である。ここで、i≧Tを満たさないと判定された場合、制御部１４がn+1を新たなnとして処理対象のフレームnを更新し（ステップＳ１５７）、処理をステップＳ１５２に戻す。一方、i≧Tを満たすと判定された場合、音声検出部がフレームy(n),y(n-1),…,y(n-i+1)は音声区間であると判定し、その判定結果を出力する（ステップＳ１５８）。

図２１は、図２０の処理例を説明するための図である。
図２１（ａ）のように、同一チャネルにおいて複数フレームで連続して一定時間以上音声区間が存在する場合にのみ、本実施例の音声検出部は、それらの連続した複数フレームを音声区間と判断する。一方、図２１（ｂ）のように、同一チャネルにおいて複数フレームで連続して一定時間（Tフレーム以上）以上音声区間が存在しない場合、本実施例の音声検出部は、音声区間と判断しない（非音声区間と判断する）。

実施例２では、第１，２実施形態と同じ音声検出部１２を用い、フレーム毎の音声区間か否かの情報を音声区間推定部に転送する。しかし、音声区間推定部は、同じチャネルの複数フレームで連続して一定時間（Tフレーム以上）以上音声が検出された場合にのみ、当該チャネルに音声区間が存在すると判断する。

すなわち、図２２（ａ）に例示するように、音声区間推定部は、同じチャネルの複数フレームで連続して一定時間（Tフレーム以上）以上音声が検出された場合にはそれらのフレームが音声区間と判定するが、図２２（ｂ）に例示するように、同じチャネルの複数フレームで連続して一定時間（Tフレーム以上）以上音声が検出されなかった場合にはフレームが非音声区間であると判定する。

図２３，図２４は、第３実施形態の実施例２の通話区間推定処理例を説明するためのフローチャートである。以下、これらの図に沿って実施例２の通話区間推定処理の一例を説明する。
まず、通話区間開始判定部が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、フレームy(n),…,y(n+T-1)が連続して音声区間であるか否かを、両チャネルについてそれぞれ判定する（ステップＳ２３１）。

ここで、何れのチャネルでもフレームy(n),…,y(n+T-1)が連続して音声区間となっていなかった場合（ステップＳ２３２）、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新して（ステップＳ２３３）、処理をステップＳ２３１に戻す。
一方、何れかのチャネルで、フレームy(n),…,y(n+T-1)が連続した連続した音声区間であった場合（ステップＳ２３２）、通話区間推定部は、音声区間が検出されたチャネルを示す情報である音声区間開始チャネルc_sと、音声区間であると判断したフレームの開始時刻である音声区間開始時刻n_sとをメモリ１３ｄに格納する。また、この場合、通話区間開始判定部１３ａは、音声区間開始時刻n_sをデータ制御部１３ｃに送る。データ制御部１３ｃは、送られた音声区間開始時刻n_s以降のフレームn の音声信号s₁(n),s₂(n)の処理開始指示を出力する（ステップＳ２３４）。

その後、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新する（ステップＳ２３５）。そして、通話区間開始判定部は、音声検出部１２から転送された音声区間判別結果x₁(n)又は音声区間判別結果x₂(n)とメモリ１３ｄから読み出した音声区間開始チャネルc_sとを用い、音声区間が検出された音声区間開始チャネルc_s以外のチャネルについて、フレームy(n),…,y(n+T-1)が連続して音声区間であるか否かを判定する（ステップＳ２３６）。

ここで、フレームy(n),…,y(n+T-1)が連続して音声区間となっていなかった場合（ステップＳ２３７）、通話区間開始判定部は、処理対象のフレームy(n)は、音声区間が検出されたチャネルc_sの音声区間の開始時刻n_sから一定時間Ｔ３後を起点とし、そこから一定時間Ｔ１以内の時間区間に属するフレームであるか否かを判定する（ステップＳ２３８）。ステップＳ２３８で、処理対象のフレームy(n)が、当該起点から一定時間Ｔ１以内の時間区間に属するフレームであったと判定された場合には、処理がステップＳ２３５に戻される。一方、ステップＳ２３８で、処理対象のフレームy(n)が、当該起点から一定時間Ｔ１以内の時間区間に属するフレームでなかったと判定された場合には、通話区間開始判定部は、音声区間開始時刻n_sを開始時刻とする音声区間が通話区間でない（非通話）と判断し、その判断結果を示す通話開始判定結果j_sをデータ制御部１３ｃに送る。データ制御部１３ｃは、処理の解除命令を出力し（ステップＳ２３９）、その後、処理がステップＳ２３３に戻される。

一方、ステップＳ２３７で、処理対象のフレームy(n)の音声信号が音声区間であったと判定された場合（ステップＳ２３７）、通話区間開始判定部は、音声区間開始時刻n_sが通話区間の開始時刻であると判断し、当該音声区間開始時刻n_sを開始時刻とする音声区間が通話区間に含まれると判定する（ステップＳ２４０）。

ステップＳ２４０の判定がなされた場合、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ２４１）、通話区間終了判定部が、音声検出部１２から転送された送話側チャネル５１の音声区間判別結果x₁(n)と受話側チャネル５２の音声区間判別結果x₂(n)とを用い、フレームy(n),…,y(n+T-1)が連続して音声区間であるか否かを両チャネルについてそれぞれ判定する（ステップＳ２４２）。

ここで、フレームy(n),…,y(n+T-1)が連続して音声区間となっていた場合（ステップＳ２４３）、通話区間終了判定部は、少なくともフレームy(n)の音声区間が通話区間に含まれると判定し、当該音声区間の終了時刻n_eをメモリ１３ｄに格納する。そして、処理がステップＳ２４１に戻される（ステップＳ２４４）。
一方、何れのチャネルでもフレームy(n),…,y(n+T-1)が連続して音声区間となっていなかった場合（ステップＳ２４３）、制御部１４は、n+1を新たなnとして処理対象のフレームnを更新し（ステップＳ２４５）、通話区間終了判定部が、音声区間判別結果x₁(n)と音声区間判別結果x₂(n)とを用い、フレームy(n),…,y(n+T-1)が連続して音声区間であるか否かを両チャネルについてそれぞれ判定する（ステップＳ２４６）。

ここで、何れかのチャネルでフレームy(n),…,y(n+T-1)が連続して音声区間となっていた場合（ステップＳ２４７）、処理がステップＳ２４４に移される。一方、何れのチャネルでもフレームy(n),…,y(n+T-1)が連続して音声区間となっていなかった場合には（ステップＳ２４７）、通話区間終了判定部は、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内であるか否かを判定する（ステップＳ２４８）。ここで、次の処理対象のフレームy(n+1)が「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内であると判定された場合には、処理がステップＳ２４５に戻される。一方、次の処理対象のフレームy(n+1)が、「通話区間に含まれる」と最後に判定された音声区間の終了時刻n_eから一定時間Ｔ２以内でないと判定された場合には、通話区間終了判定部は、当該音声区間の終了時刻n_e又は現時点を通話区間の終了時刻と決定し、その決定内容を示す通話終了判定結果j_eをデータ制御部１３ｃに送る。これを受けたデータ制御部１３ｃは、処理終了と判断して処理終了命令を出力する（ステップＳ２４９）。その後、処理がステップＳ２３３に戻される。

〔第４実施形態〕
次に、本発明の第４実施形態について説明する。
本形態は上述の各実施形態の変形例であり、図２５のように、或るチャネルの音声区間の開始時刻から一定時間T3（T3は正の値でもよいし０でもよい）後を起点とし、当該起点から一定時間T1以内に別のチャネルの音声区間が存在する場合に、当該起点の一定時間T4（例えば１秒）前を通話区間の開始時刻として決定する。これにより、通話開始時点の推定誤りによる通話区間の始端欠けを防ぐことができる。

この例の場合、例えば、音声認識装置１３１（図３）でリアルタイムに音声認識処理を実行しつつ、起点の一定時間T4前以降の音声データ（一時的にメモリにバッファしておいたもの）の録音を行うこともできる。また、音声認識装置１３１での音声認識処理を起点の一定時間T4前以降の音声データについて行ってもよい。すなわち、音声認識処理をリアルタイムに行わない構成であってもよい。

〔各実施形態の効果〕
以上説明した各実施形態によれば、雑音や雑談などの非通話時の音声を通話音声として誤検出しても、それを早期に検出できるため、通話区間を高精度で検出することができる。
通常、音声通話では話者が交互に発話している。各実施形態では、一人の音声（送話音又は受話音）だけを検出するのではなく、複数人の音声（送話音および受話音）を検出してそれらを通話区間の推定に用いる。これにより、図８，図９等を用いて説明したように、通話開始や通話終了のタイミングを正確に推定できるとともに、咳払い等の雑音等を通話として誤検出してしまう問題を減らすことができる。また、図１０等を用いて説明したように、T3を0より大きな一定値に設定することで、両チャネルで同時刻に発生する短時間雑音を通話と誤認することを防止できる。そして、このように通話でないと判断した場合に、誤って音声録音した咳払い等の音声データを破棄することで記憶装置の容量も節約できる。

また、第３実施形態で説明したように、チャネル毎に複数個の連続するフレームで音声区間と判別された場合のみ、その連続するフレーム全体を音声区間であると決定するようにすれば、突発性の雑音を音声と誤って判別してしまう問題の発生を防止できる。

また、前述のように（第１実施形態）、通話開始と判断した後に、両チャネルどちらかのチャネルで音声発話が終了した後に、両チャネルともに一定時間T2以上無音が続いた場合に通話終了と判断することにより、より確実で短時間に通話終了を判断することができる。

また、上記の通話終了を判断する別の方法として、通話開始と判断した後に、両チャネルではなくどちらか1チャネルだけの音声区間判別結果を用い、音声発話が終了した後に一定時間T2以上無音が続いた場合に通話終了と判断しても良い（第２実施形態）。なお、この場合、通話終了の判断の際に他方のチャネルの音声区間判別を行わない構成でもよい。

また、第４実施形態で説明したように、通話開始時刻であると推定した時刻よりも過去の一定時間T4をマージンとして確保しておけば、推定誤りによって通話開始部分の音声が欠けてしまう（例えば音声を自動録音する際に録音開始部分の音声が欠けてしまう）ことを避けることができる。

以上より、上述の各実施形態の方式を用いた場合、例えば、コールセンターなどの通話において、オペレータ又は顧客の音声を自動録音したり音声認識したりする際に通話区間を精度よく検出でき、音声認識や音声録音を適切に行うことができる。

例えば、音声認識では、通話区間を自動検出し、検出した通話区間に対して、更に細かな単位で発話区間検出を実施するなどして通話区間の音声認識を実行する場合があるが、通話区間検出精度が悪いと認識誤りの原因となる。特に、推定した通話区間が実際よりも短い場合には音声認識が正常に実行できなくなる。また、例えば、推定した通話区間が実際よりも長い場合や、実際の通話が存在しない区間を通話区間と推定した場合には、音声認識のための演算を不要な区間に対して実施することになりＣＰＵ演算量が無駄に多くなってしまう。また、例えば、通話音声の自動録音において、推定した通話区間が実際よりも長い場合や、実際の通話が存在しない区間を通話区間として推定した場合には、音声データを記録するハードディスク等の記録媒体の記憶容量を無駄に使用してしまう。また、例えば、通話開始・終了の推定位置が不正確なために、録音された音声の通話開始部分や通話終了部分が欠けてしまう問題もある。また、例えば、非特許文献１の方法のように一方のチャネルの非音声区間の情報のみを用いて通話終了を判断した場合、例えば、通話中に相手の話を聞いている時など、一方のチャネルに長い無音時間があると通話終了とみなしてしまい、本来の通話区間が細切れに推定されてしまう、という問題もある。また、例えば、非特許文献１の方法のように一方のチャネルの非音声区間の情報のみを用いて通話区間を推定する場合には、通話の開始や終了を判断するために、長い時間音声波形を用いなければ精度が高い判断できない、という問題もある。上述の各実施形態の方式を用いた場合、このような各問題の発生を低減させることができる。

なお、本発明は上述の実施の形態に限定されるものではない。例えば、通信端末装置として電話機以外の装置を用いた通話に本発明を適用してもよい。このような通信端末装置の例としては、例えばＩＰ電話通話に用いるパーソナルコンピュータや、音声会議システムに用いる端末装置や、テレビ電話端末装置などを例示できる。また、２者間の通話だけではなく、音声会議のように複数者間の通話検出に本発明を適用してもよい。すなわち、２チャネルの音声区間判別結果を用いて通話区間を検出する場合だけではなく、３チャネル以上の音声区間判別結果を用い、本発明によって通話区間を検出してもよい。また、図３では、通信端末装置である電話機から２つのチャネルの音声信号を取り出し、本発明を適用する例を説明したが、通話端末装置間の通信を中継する装置から各通信端末装置の送話側チャネルの音声信号を取り出して本発明を適用してもよい。また、複数人間間の通話だけではなく、人間と自動音声応答装置との通話に本発明を適用してもよい。交互に音声信号をやり取りする通信の通信区間（通話区間と定義する）に本発明を適用してもよい。

また、上述の各実施形態では、通話区間の開始時点を判断する際、音声区間が検出されたチャネルc_sの音声区間の開始時刻n_sから一定時間T3（T3=0も含む）後を起点とし、そこから一定時間Ｔ１以内に別のチャネルの音声区間が検出されたかを検出していた（ステップＳ１４，Ｓ１０４等）。しかし、通話区間の開始時点を判断する際、「通話区間の開始時刻以降の或る音声区間内のその他の時点（例えば、当該音声区間内の中点、当該音声区間の終了時点等）」から一定時間Ｔ１以内に別のチャネルの音声区間が検出されたかを検出する構成であってもよい。

また、上述の各実施形態では、通話区間の終了時点を判断する際、通話区間に含まれると決定された音声区間の終了時刻n_eから一定時間Ｔ２以内に他の音声区間が存在するか否かを判定していた（図５：ステップＳ１７，図１６：ステップＳ１０７等参照）。しかし、通話区間の終了時点を判断する際、通話区間に含まれると（例えば最後に）決定された「音声区間内のその他の時点」から一定時間Ｔ２以内に他の音声区間が存在するか否かを判定してもよい。「音声区間内のその他の時点」としては、例えば、当該音声区間の開始時点や、当該音声区間が通話区間に含まれると決定された時点等を例示できる。

また、上述の各実施形態では、通話区間の終了時点を判断する際、通話区間に含まれると決定された音声区間の終了時刻n_eから一定時間Ｔ２以内に何れかのチャネルに他の音声区間が存在するか否かを判定していた（図５：ステップＳ１７，図１６：ステップＳ１０７等参照）。しかし、通話区間の終了時点を判断する際、通話区間に含まれると決定された（例えば最後の）音声区間の終了時刻n_e（又は当該音声区間内のその他の時点）から一定時間Ｔ２以内に、当該音声区間とは別のチャネルに他の音声区間が存在するか否かを判定する構成でもよい。この場合、別のチャネルに他の音声区間が存在しなかった場合に、通話区間が終了したと判断する。

また、通話区間の開始時の判定に１チャネルの音声区間の情報のみを用い、通話区間の終了時の判定に複数チャネルの音声区間の情報を用いる構成でもよい。

その他、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、各実施形態の思想を組み合わせたり、本発明の趣旨を逸脱しない範囲で適宜変更したりしてもよい。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、各形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の産業上の利用分野としては、例えば、コールセンターやコンタクトセンターでオペレータが顧客からの電話に応対する際に、通話内容を自動録音するシステムが例示できる。また、このとき、通話内容を音声認識により自動で文章化するシステムも例示できる。その他、一般の通話での通話区間の検出等にも利用できる。

１０，２００通話区間推定装置

Claims

複数の通話端末装置間で通話が開始されてから終了するまでの区間である通話区間の開始を推定する通話区間検出装置であって、
何れかの上記通話端末装置を基準とした送話側チャネルの音声信号と受話側チャネルの音声信号とが入力される音声入力部と、
上記音声入力部に入力された複数チャネルの音声信号を用い、チャネル毎の音声区間と非音声区間とを検出する音声検出部と、
上記音声検出部が検出した複数チャネルの音声区間と非音声区間との情報を用い、上記通話区間の開始を推定する通話区間推定部と、
を有し、
上記通話区間推定部は、
或るチャネルの音声区間の開始時刻を第１起点とし、当該音声区間の開始時刻を除く或る時刻を第２起点とし、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネル音声区間の音声は通話の音声ではないと判断し、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在する場合に、上記第１起点又は上記第１起点の一定時間Ｔ４前の時刻を通話区間の開始時刻として決定する、
ことを特徴とする通話区間検出装置。
請求項１に記載の通話区間検出装置であって、
上記第２起点は、前記音声区間の開始時刻から一定時間Ｔ３後の時刻である、
ことを特徴とする通話区間検出装置。
請求項１に記載の通話区間検出装置であって、
上記第２起点は、前記音声区間の中点である、
ことを特徴とする通話区間検出装置。
請求項１に記載の通話区間検出装置であって、
上記第２起点は、前記音声区間の終了点である、
ことを特徴とする通話区間検出装置。
請求項１から４の何れかに記載の通話区間検出装置であって、
上記通話区間推定部は、
通話区間の開始時刻以降の或る音声区間内の或る時点から、一定時間Ｔ２以内に何れのチャネルにも他の音声区間が存在しないならば、当該或る音声区間の終了時刻を当該通話区間の終了時刻として決定し、当該或る音声区間内の或る時点から一定時間Ｔ２以内に何れかのチャネルに他の音声区間が存在するならば、少なくとも当該他の音声区間までが通話区間に含まれると決定する、
ことを特徴とする通話区間検出装置。
請求項１から４の何れかに記載の通話区間検出装置であって、
上記通話区間推定部は、
通話区間の開始時刻以降の或る音声区間内の或る時点から、一定時間Ｔ２以内に特定の１チャネルに他の音声区間が存在しないならば、当該或る音声区間の終了時刻を当該通話区間の終了時刻として決定し、当該或る音声区間内の或る時点から一定時間Ｔ２以内に当該特定の１チャネルに他の音声区間が存在するならば、少なくとも当該他の音声区間までが通話区間に含まれると決定する、
ことを特徴とする通話区間検出装置。
請求項５又は６に記載の通話区間検出装置であって、
上記或る音声区間内の或る時点は、
上記或る音声区間の終了時刻である、
ことを特徴とする通話区間検出装置。
請求項５から７の何れかに記載の通話区間検出装置であって、
上記通話区間推定部は、
上記通話区間の終了時刻が決定されるまで、異なる上記或る音声区間について、順次、請求項５又は６に記載の上記通話区間推定部の処理を実行する、
ことを特徴とする通話区間検出装置。
請求項１から８の何れかに記載の通話区間検出装置であって、
上記音声検出部は、
所定の時間区間であるフレームの単位でチャネル毎の音声の有無を検出し、
上記通話区間推定部は、
同じチャネルの複数フレームで連続して音声が検出された場合にのみ、当該チャネルに音声区間が存在すると判断する、
ことを特徴とする通話区間検出装置。
複数の通話端末装置間で通話が開始されてから終了するまでの区間である通話区間の開始を推定する通話区間検出方法であって、
何れかの上記通話端末装置を基準とした送話側チャネルの音声信号と受話側チャネルの音声信号とが音声入力部に入力される音声入力過程と、
上記音声入力過程で入力された複数チャネルの音声信号を用い、チャネル毎の音声区間と非音声区間とを検出する音声検出過程と、
上記音声検出過程で検出された複数チャネルの音声区間と非音声区間との情報を用い、上記通話区間の開始を推定する通話区間推定過程と、
を有し、
上記通話区間推定過程は、
或るチャネルの音声区間の開始時刻を第１起点とし、当該音声区間の開始時刻を除く或る時刻を第２起点とし、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネル音声区間の音声は通話の音声ではないと判断し、当該第２起点から一定時間Ｔ１以内に別のチャネルの音声区間が存在する場合に、上記第１起点又は上記第１起点の一定時間Ｔ４前を通話区間の開始時刻として決定する過程を有する、
ことを特徴とする通話区間検出方法。
請求項１０に記載の通話区間検出方法であって、
上記第２起点は、前記音声区間の開始時刻から一定時間Ｔ３後の時刻である、
ことを特徴とする通話区間検出方法。
請求項１０に記載の通話区間検出方法であって、
上記第２起点は、前記音声区間の中点である、
ことを特徴とする通話区間検出方法。
請求項１０に記載の通話区間検出方法であって、
上記第２起点は、前記音声区間の終了点である、
ことを特徴とする通話区間検出方法。
請求項１から９の何れかの通話区間検出装置の各部の処理をコンピュータに実行させるための通話区間検出プログラム。