JP2005202014A

JP2005202014A - 音声信号処理装置、音声信号処理方法および音声信号処理プログラム

Info

Publication number: JP2005202014A
Application number: JP2004006456A
Authority: JP
Inventors: Izuru Tanaka; 出田中; Kenichi Iida; 健一飯田; Satoshi Mihara; 悟史三原; Eiichi Yamada; 榮一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2005-07-28
Also published as: US20050182627A1; CN1333363C; CN1652205A; KR20050074920A

Abstract

【課題】ユーザの手を煩わせることなく、処理対象の音声データ中の目的とする部分を迅速に見つけ出して利用することができるようにする。
【解決手段】音声特徴解析部１４３により処理対象の音声信号の変化点を自動的に検出し、その変化点の当該音声信号上の位置を示す変化点情報をＣＰＵ１０１が取得し、この変化点情報をデータ記憶装置１１１に記録する。ＣＰＵ１０１により、キー操作部１２１を通じて受け付けたユーザからの指示入力に応じた変化点情報を特定し、その特定した変化点情報に対応する音声データに位置付けが行われて、その位置から処理対象の音声データの再生などの処理を行うことができるようにする。
【選択図】図１

Description

この発明は、例えば、ＩＣ（Integrated Circuit）レコーダ、ＭＤ（Mini Disc）レコーダ、パーソナルコンピュータなどの音声信号を処理する種々の装置、この装置で用いられる方法、プログラムに関する。

例えば、後に記す特許文献１に開示されているように、録音された音声データの音声認識を行って、これをテキストデータに変換し、自動的に議事録を作成するようにする議事録作成装置が提案されている。このような技術を用いることによって、人手を介すことなく、会議の議事録を迅速に作成することが可能となる。しかし、録音した全ての音声データに基づいた議事録を作成するまでもなく、重要な部分のみの議事録を作成するようにしたい場合もある。このため、録音した音声データから目的とする部分を探し出す必要が生じる。

例えば、ＩＣレコーダやＭＤレコーダなどを用いて長時間の会議などの様子を録音した場合、記録された音声データから聞きたい場所を探し出すには、その音声データを再生し、再生音声を聴取するようにしなければならない。もちろん、早送りや早戻しなどの機能を用いて、目的とする部分を探すようにすることも可能であるが、手間や時間がかかる場合が多い。このため、「検索を容易にするための目印」をデータを録音したデータに埋め込むようにする（付加するようにする）ことができるようにした機能を備えた録音装置が提供されている。例えば、ＭＤレコーダなどにおいては、トラックマークを付加する機能として実現されている。
特開平２−２０６８２５号公報

ところが、上述したように、「検索を容易にするための目印」をデータに付加するようにする機能は、ユーザの手動操作により用いることができるものであり、ユーザの操作が無ければ、目印を付加することができない。したがって、録音中に重要であると判断した部分に目印を付す操作を行おうと思っていても、会議に集中している場合などにおいては、目印を付すための操作を忘れてしまう場合もあると考えられる。

また、注目すべき発言部分に目印を付けられたとしても、目印を埋め込む操作は注目すべき発言を聞いたときに行われるので、目印は注目の発言の後ろに記録される。そのため、ユーザが注目の発言を聞くには、再生位置を目印のところに移動させたあと、少し前に戻す操作をしなければならない。希望の場所の先に進み過ぎたり、戻り過ぎたりして、この操作を繰り返さなければならないのは、ユーザにとってとても面倒でありストレスのたまる作業である。

また、目印がついている場所がどんな内容であるかは聞いてみるまで分からない。聞いてみて目的の場所でなければ、次の目印へと移動させる操作を目的の場所に達するまで繰り返さなければならず、これもまた手間のかかる作業である。このように、「検索を容易にするための目印」をデータに付加するようにする機能は、便利なものであるが、ユーザの操作がおぼつかない場合などにおいては、音声データの目的とする部分に目印を付す機能を十分に機能させることができない。

以上のことにかんがみ、この発明は、ユーザの手を煩わせることなく、処理対象の音声信号中の目的とする部分を迅速に見つけ出して利用することができるようにする装置、方法、プログラムを提供することを目的とする。

上記課題を解決するため、請求項１に記載の発明の音声信号処理装置は、
処理対象の音声信号に基づいて、当該音声信号の話者の変化を所定の処理単位毎に検出する検出手段と、
前記検出手段により話者が変化したと検出された前記音声信号上の位置を示す変化点情報を取得する取得手段と、
前記取得手段により取得された前記変化点情報を保持する保持手段と
を備えることを特徴とする。

この請求項１に記載の発明の音声信号処理装置は、検出手段により処理対象の音声信号の変化点が自動的に検出され、その変化点の当該音声信号上の位置を示す変化点情報が取得手段により取得される。この変化点情報は保持手段により保持される。このように、変化点の位置情報である変化点情報を保持することは、処理対象の音声信号の変化点に対して、マークを付すことと同義である。

このようにして検出され保持される変化点情報を用いて、変化点情報に対応する音声信号への位置付けが可能になり、その位置から処理対象の音声信号の再生などの処理を行うことができるようにされる。これにより、ユーザは自己の手を煩わせることなく、音声信号の変化点に自動付与されるマークを基準として、処理対象の音声信号から目的とする部分の音声信号を迅速に検索することができるようにされる。

また、請求項２に記載の発明の音声信号処理装置は、請求項１に記載の音声信号処理装置であって、
前記検出手段は、前記処理単位毎に前記音声信号の特徴を抽出し、抽出した前記音声信号の特徴に基づいて、話音声以外の部分から話音声部分への変化点、および、話音声部分の話者の変化点を検出することができるものであることを特徴とする。

この請求項２に記載の発明の音声信号処理装置によれば、検出手段は、処理対象の音声信号について、予め決められた処理単位毎にその特徴を検出し、先に検出した特徴との比較を行うなどの処理を行うことによって、無音部分や雑音部分からの話音声部分への変化点や、話音声部分であっても話者が変化した部分の変化点を検出することができるようにされる。

これにより、少なくとも、話者が変化した部分には、マークを付与することができるようにされる。そして、話者の変化点を基準にして、目的とする音声データ部分を迅速に検索することができるようにされる。

また、請求項３に記載の発明の音声信号処理装置は、請求項２に記載の音声信号処理装置であって、
１人以上の話者の話音声の特徴を示す特徴情報と前記話者の識別情報とを対応付けて記憶保持する記憶手段と、
前記検出手段により抽出された前記音声信号の前記特徴と、前記記憶手段に記憶保持されている前記特徴情報とを比較して、話者を特定する特定手段と
を備え、
前記保持手段は、前記変化点情報と、前記特定手段で特定された話者の前記識別情報とを関連付けて保持することを特徴とする。

この請求項３に記載の発明の音声信号処理装置によれば、話者の話音声の特徴情報と話者の識別情報とが対応付けられて記憶手段に記憶されている。特定手段により、検出手段からの処理対象の音声データの特徴情報と、記憶手段の特徴情報とを比較することによって、変化点における話者が特定され、変化点と話者の識別情報とが保持手段に保持される。

これにより、保持手段に保持された情報に基づいて、特定の話者の発言部分のみを再生したり抽出したりすることができると共に、各変化点における話者が誰かによって、目的とする音声データ部分の検索を行うことができるようにされる。

また、請求項４に記載の発明は、請求項２に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号を解析して話者位置を検出する第２の検出手段を備え、
前記取得手段は、前記第２の検出手段により検出された話者位置の変化をも考慮して、前記変化点を特定し、特定した変化点に対応する前記変化点情報を取得することを特徴とする。

この請求項４に記載の発明の音声信号処理装置によれば、第２の検出手段により、各音声チャンネルの音声信号を解析することによって、話者の位置（話者位置）が検出するようにされ、これに基づき、処理対象の音声信号の変化点が検出される。そして、取得手段によって、検出手段からの変化点と、第２の検出手段により検出される変化点との双方が用いられて、実際に用いることになる変化点が特定され、その特定された変化点の位置を示す変化点情報が取得される。

これにより、第２の検出手段により検出される変化点をも考慮し、音声信号における変化点をより正確かつ確実に検出し、目的とする音声データ部分の検索を行うことができるようにされる。

また、請求項５に記載の発明の音声信号処理装置は、請求項３に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段と、
前記複数の音声チャンネルの音声信号を解析して得られる前記話者位置に応じた話者の前記識別情報を前記話者情報保持手段から取得する話者情報取得手段と
を備え、
前記特定手段は、前記話者情報取得手段により取得された話者の前記識別情報をも考慮して、前記話者を特定することを特徴とする。

また、請求項５に記載の発明の音声信号処理装置によれば、各音声チャンネルに対応するマイクロホンに応じて決められる話者位置と、その話者位置に位置することになる話者の識別情報とが話者情報記憶手段により記憶保持されている。具体例を示せば、第１のマイクロホンに一番近い位置（話者位置）にいる話者はＡさん、第２のマイクロホンに一番近い位置（話者位置）にいる話者はＢさんのように、各マイクロホンの位置に応じて決まる各話者の位置が、各マイクロホンに応じて（各マイクロホンの配置位置に応じて）決められる。このため、例えば、どのマイクロホンの音声チャンネルの音声データのレベルが一番高いかに応じて、どのマイクロホンの近くにいる話者が話しているかを識別することができるようにされる。

そして、話者情報取得手段によって、各音声チャンネルの音声データが解析され、上述のように、どの音声チャンネルのマイクロホンを通じて主に音声が集音されたかに応じて、話者位置を特定し、その話者位置に位置する話者を特定することができるようにされる。このようにして取得した情報をも用いて、特定手段により、変化点における話者が特定するようにされる。これにより、話者の特定精度を向上させ、正確な情報を用いて、当該処理対象の音声データから目的とする部分を検索することができるようにされる。

また、請求項６に記載の発明の音声信号処理装置は、請求項３または請求項５に記載の音声信号処理装置であって、
前記記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段を備えることを特徴とする。

この請求項６に記載の発明の音声信号処理装置によれば、記憶手段には、各識別情報に対応する話者に関連する情報、例えば、顔写真データ、アイコンデータ、マーク画像データ、アニメ画像データ等の種々画像データやグラフィックスデータなどが、各識別情報に対応付けられて記憶保持するようにされている。そして、表示情報処理手段によって、変化点の位置と話者に関連する情報とが表示するようにされる。

これにより、ユーザは、処理対象の音声データについて、視覚を通じて各話者の発言部分を知ることができるようにされ、処理対象の音声データの内の目的とする部分を迅速に見つけ出すことができるようにされる。

また、請求項７に記載の発明の音声信号処理装置は、請求項１に記載の音声信号処理装置であって、
前記検出手段は、異なるマイクロホンにより集音される各音声チャンネルの音声信号を解析することにより得られる話者位置に基づいて、前記話者の変化を検出するものであることを特徴とする。

この請求項７に記載の発明の音声信号処理装置によれば、各音声信号チャンネルの音声信号を解析することにより、話者の位置（話者位置）が特定するようにされ、その話者位置の切り換わり点が変化点として検出するようにされる。

これにより、複数個存在する各音声チャンネルの音声信号を解析することによって、処理対象の音声信号の変化点を簡単かつ正確に検出し、話者が変化した部分には、マークを付与することができるようにされる。そして、話者の変化点を基準にして、目的とする音声データ部分を迅速に検索することができるようにされる。

また、請求項８に記載の発明の音声信号処理装置は、請求項７に記載の音声信号処理装置であって、
前記保持手段は、前記変化点情報と、前記検出手段により検出される話者位置を示す情報とを関連付けて保持することを特徴とする。

この請求項８に記載の発明の音声信号処理装置によれば、保持手段に保持される情報をユーザに提供することができるようにされる。これにより、どの変化点において、どの位置の話者が発言していたかを把握することができるようにされ、これに基づき、処理対象の音声データから目的とする部分の検索を行うことができるようにされる。

また、請求項９に記載の発明の音声信号処理装置は、請求項７に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段と、
前記複数の音声チャンネルのそれぞれの音声信号を解析して得られる前記話者位置に応じた話者の前記識別情報を前記話者情報保持手段から取得する話者情報取得手段と
を備え、
前記保持手段は、前記変化点情報と、前記話者情報取得手段により取得された話者の前記識別情報とを関連付けて保持することを特徴とする。

この請求項９に記載の発明の音声信号処理装置によれば、話者情報記憶手段に、マイクロホンの位置に応じて決められる話者位置と、話者位置の話者の識別情報とが対応付けられて記憶されており、話者情報取得手段によって、各音声チャンネルの音声信号が解析されて話者位置が特定され、その話者位置に位置する話者の識別情報が変化点情報と対応付けられて保持手段により保持される。

これにより、各変化点における話者を特定することができるようにされ、これをユーザに提供することができるようにされ、処理対象の音声データから目的とする部分の検索を簡単かつ正確に行うことができるようにされる。

また、請求項１０に記載の発明の音声信号処理装置は、請求項９に記載の音声信号処理装置であって、
前記話者情報記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段を備えることを特徴とする。

この請求項１０に記載の音声信号処理装置によれば、話者情報記憶手段には、各識別情報に対応する話者に関連する情報、例えば、顔写真データ、アイコンデータ、マーク画像データ、アニメ画像データ等の種々画像データやグラフィックスデータなどが、各識別情報に対応付けられて記憶保持するようにされている。そして、表示情報処理手段によって、変化点の位置と話者に関連する情報とが表示するようにされる。

本発明によれば、長時間の会議を録音しても話者が切り換わるごとに切り替わりマーク（目印）が自動的に付加するようにされるので、議事録を作成する際に、発言の検索性を向上させ、目的とする話者の発言部分を繰り返し再生するなどのことが簡単かつ迅速に行えるようになる。

また、変化点における話者を識別し、その識別した話者を示す情報と音声データとの変化点とを対応付けて管理することができるので、音声データを再生することなく、特定の話者の発言部分を簡単かつ迅速に探し出すことができる。

また、これまで議事録作成者の記憶に頼っていた部分を排除し、手間と時間がかかっていた議事録作成作業の効率を向上させることができる。また、議事録自体の作成を省略し、検索性の高い、音声データの形式の議事録として録音データを用いるようにすることができる。

以下、図を参照しながら、この発明による装置、方法、プログラムの一実施の形態について説明する。以下に説明する実施の形態においては、この発明を音声信号の記録再生装置であるＩＣレコーダに適用した場合を例にして説明する。

［第１の実施の形態］
[ＩＣレコーダの構成と動作の概要]
図１は、この第１の実施の形態の記録再生装置であるＩＣレコーダを説明するためのブロック図である。図１に示すように、この実施の形態のＩＣレコーダは、ＣＰＵ（Central Processing Unit）１０１、プログラムや各種のデータが記憶されているＲＯＭ（Read Only Memory）１０２、主に作業領域として用いられるＲＡＭ（Random Access Memory）１０３がＣＰＵバス１０４を通じて接続されて、マイクロコンピュータの構成とされた制御部１００を備えている。なお、ＲＡＭ１０３は、後述もするように、圧縮データ領域１０３（１）と、ＰＣＭ（Pulse Code Modulation）領域１０３（２）とが設けられている。

制御部１００には、ファイル処理部１１０を通じてデータ記憶装置１１１が接続され、入力処理部１２０を通じてキー操作部１２１が接続されている。また、制御部１００には、アナログ／デジタルコンバータ（以下、Ａ／Ｄコンバータと略称する。）１３２を通じてマイクロホン１３１が接続され、デジタル／アナログコンバータ（以下、Ｄ／Ａコンバータと略称する。）１３４を通じてスピーカ１３３が接続されている。また、制御部１００には、ＬＣＤ（Liquid Crystal Display）１３５が接続されている。なお、この実施の形態において、ＬＣＤ１３５は、ＬＣＤコントローラの機能をも備えたものである。

さらに、制御部１００には、データ圧縮処理部１４１、データ伸張処理部１４２、音声特徴解析部１４３、通信インターフェース（以下、通信Ｉ／Ｆと略称する。）１４４が接続されている。図１において、２重線で示したデータ圧縮処理部１４１、データ伸張処理部１４２、音声特徴解析部１４３は、制御部１００のＣＰＵ１０１で実行されるソフトウェア（プログラム）によっても、その機能を実現することができるものである。

また、この実施の形態において、通信インターフェース１４４は、例えば、ＵＳＢ（Universal Serial Bus）やＩＥＥＥ（Institute of Electrical and Electronics Engineers）１３９４などのデジタルインターフェースであり、接続端子１４５に接続されるパーソナルコンピュータ、デジタルカメラなどの種々の電子機器との間でデータの送受を行うことができるものである。

この第１の実施の形態のＩＣレコーダは、キー操作部１２１のＲＥＣキー（録音キー）２１１が押下操作されると、ＣＰＵ１０１が各部を制御して録音処理を行う。この場合、マイクロホン１３１で集音され、Ａ／Ｄコンバータ１３２でデジタル変換されると共に、データ圧縮処理部１４１の機能によりデータ圧縮された音声信号が、ファイル変換部１１０を通じてデータ記憶装置１１１の所定の記憶領域に記録される。

この第１の実施の形態のデータ記憶装置１１１は、フラッシュメモリ、あるいは、フラッシュメモリを用いたメモリカードであり、後述もするように、データベース領域１１１（１）と音声ファイル１１１（２）が設けられたものである。

録音処理時において、この第１の実施の形態のＩＣレコーダは、音声特徴解析部１４３の機能により、集音して録音（記録）する音声信号について、所定の処理単位毎に特徴解析を行い、特徴が変化したことを検出した場合に、その特徴が変化した時点にマーク（目印）を付すようにしている。そして、このマークを利用して、録音した音声信号から目的とする音声信号部分の検索を迅速に行うことができるようにしている。

図２は、集音して録音する音声信号の変化点にマークを付すようにする処理の概要を説明するための図である。この第１の実施の形態のＩＣレコーダにおいては、上述もしたように、マイクロホン１３１により集音された音声信号について、所定の処理単位毎に特徴解析を行う。

そして、直前の特徴解析結果と比較することによって、無音部分や雑音部分から話音声部分に変化した変化点、あるいは、話音声部分であっても、話者が変化した変化点を検出し、当該音声信号上の変化点の位置（時間）を特定する。そして、その特定した位置を変化点情報（マーク情報）としてデータ記憶装置１１１に記憶しておくようにする。このように、音声信号上の変化点の位置を示す変化点情報を保持することが、集音して録音する音声信号に対してマークを付すことになる。

具体的には、図２に示すように、会議の様子を録音するようにした場合、録音開始から１０秒後に、Ａさんが発言を始めたとする。この場合、Ａさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されおり、Ａさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Ａさんが発言を始める前とは明らかに異なることになる。

この集音して録音する音声信号の変化点を音声特徴解析部１４３において検出し、その変化点の音声信号上の位置を特定（取得）して、この特定した変化点情報（音声信号上の特定した位置情報）を図２におけるマークＭＫ１としてデータ記憶装置１１１に記憶保持する。なお、図２においては、録音開始からの経過時間を変化点情報として記憶保持するようにしている場合の例を示している。

そして、Ａさんの発言が終了した後、少し間をおいて、Ｂさんが発言を始めたとする。このＢさんの発言開始の直前も、無音あるいは雑音である。この場合にも、Ｂさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Ｂさんが発言を始める前とは明らかに異なることになり、図２において、マークＭＫ２が示すように、Ｂさんの発言の開始部分にマークを付すように、変化点情報（マークＭＫ２）をデータ記憶装置１１１に記憶保持する。

さらに、Ｂさんの発言の途中でＣさんが割って入ったような場合も発生する。この場合には、Ｂさんの話し声と、Ｃさんの話し声とでは、異なっているために、集音した音声信号の解析結果も異なることになり、図２において、マークＭＫ３が示すように、Ｃさんの発言の開始部分にマークを付すように、変化点情報（マークＭＫ３）をデータ記憶装置１１１に記憶保持する。

このように、この実施の形態のＩＣレコーダは、録音処理時において、集音した音声信号の特徴解析を行い、特徴が変化した音声信号上の位置を記憶保持することによって、音声信号の特徴が変化した時点にマークを付すようにすることができるようにしたものである。

なお、図２において、マークＭＫ１、ＭＫ２、ＭＫ３において、その他という欄が示すように、例えば、発言部分を音声認識してテキストデータに変換することにより、そのテキストデータを関連付けて記憶保持するようにしたり、その他の関連情報を一緒に記憶保持させるようにしたりすることもできるようにしている。

そして、この第１の実施の形態のＩＣレコーダは、キー操作部１２１のＰＬＡＹキー（再生キー）２１２が押下操作されると、ＣＰＵ１０１が各部を制御して再生処理を行う。すなわち、データ圧縮されてデータ記憶装置１１１の所定の記憶領域に記憶されている録音された音声信号（デジタル音声信号）がファイル処理部１１０を通じて読み出され、これがデータ伸張処理部１４２の機能により伸張処理されて、データ圧縮前の元のデジタル音声信号に復元される。この復元されたデジタル音声信号が、Ｄ／Ａコンバータ１３４においてアナログ音声信号に変換され、これがスピーカ１３３に供給されて録音されて再生するようにされた音声信号に応じた音声が放音される。

この再生処理時に、この第１のＩＣレコーダにおいては、キー操作部１２１のＮＥＸＴキー（次のマークへの位置付けを指示するキー）２１４やＰＲＥＶキー（前のマークへの位置付けを指示するキー）２１５が操作された場合に、これに応じて、再生位置をすばやくマークが付与された位置に位置付けて、そこから再生を行うことができるようにしている。

図３は、録音した音声信号の再生時に行われるマークが示す音声信号上の位置への位置付け動作を説明するための図であり、操作に応じて変化するＬＣＤ１３５の表示情報の変化を示す図である。図３に示すように、ＰＬＡＹキー２１１が押下操作されると、上述もしたように、ＣＰＵ１０１は各部を制御し、指示された録音音声信号の先頭から再生を開始する。

そして、Ａさんの発言部分においては、図２を用いて説明したように、録音処理時に付された（記憶保持された）マークＭＫ１に基づいて、図３Ａに示すように、Ａさんの発言の開始時刻が表示されると共に、これが録音開始から最初に付したマークであることを示すＳＥＱ−Ｎｏ．１という表示がされる。

再生が続行され、Ｂさんの発言部分の再生が開始されると、図３Ｂに示すように、Ｂさんの発言の開始時刻が表示されると共に、これが録音開始から２番目に付したマークであることを示すＳＥＱ−Ｎｏ．２という表示がされる。この後、ＰＲＥＶキー２１５が押下操作されると、ＣＰＵ１０１は、図３Ｃに示すように、開始時刻が先頭から１０秒後（０分１０秒後）のマークＭＫ１が示すＡさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。

この後、ＮＥＸＴキーが押下操作されると、ＣＰＵ１０１は、図３Ｄに示すように、開始時刻が先頭から１分２５秒後のマークＭＫ２が示すＢさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。さらに、ＮＥＸＴキーが押下操作されると、ＣＰＵ１０１は、図３Ｅに示すように、開始時刻が先頭から２分３０秒後のマークＭＫ３が示すＣさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。

このように、この実施の形態のＩＣレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付するようにすると共に、再生処理時においては、ＮＥＸＴキー２１４、ＰＲＥＶキー２１５を操作することによって、付したマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。

これによって、ユーザは、すばやく目的とする話者（発言者）の発言部分に再生位置を位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。

なお、ここでは、説明を簡単にするため、変化点情報として、録音開始時点からの時刻情報を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置１１１の記録媒体上のアドレスを変化点情報として用いることもできる。

[ＩＣレコーダの動作の詳細について]
次に、図４、図５のフローチャートを参照しながら、この第１の実施の形態のＩＣレコーダにおける録音処理と再生処理とについて、詳細に説明する。

［録音処理について］
まず、録音処理について説明する。図４は、この第１の実施の形態のＩＣレコーダにおいて行われる録音処理を説明するためのフローチャートである。図４に示す処理は、ＣＰＵ１０１が各部を制御することにより行われる処理である。

この第１の実施の形態のＩＣレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる（ステップＳ１０１）。ユーザが操作部１２１にある操作キーを押下すると、入力処理部１２０がそれを検知し、ＣＰＵ１０１に通知するので、ＣＰＵ１０１は、受け付けた操作入力は、ＲＥＣキー２１１の押下操作か否かを判断する（ステップＳ１０２）。

ステップＳ１０２の判断処理において、受け付けた操作入力は、ＲＥＣキー２１１の押下操作ではないと判断したときには、ＣＰＵ１０１はユーザにより操作されたキーに応じた処理、例えば、ＰＬＡＹキー２１２に応じた再生処理、ＮＥＸＴキー１２４に応じた次のマークへの位置付け処理、ＰＲＥＶキー２１５に応じた１つ前のマークへの位置付け処理などを行うことになる（ステップＳ１０３）。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。

ステップＳ１０２の判断処理において、ＲＥＣキーが押下されたと判断した場合には、ＣＰＵ１０１は、ファイル処理部１１０にファイル記録処理を行うように指示を出し、これに応じて、ファイル処理部１１０は、データ記録装置１１１に音声ファイル１１１（２）を作成する（ステップＳ１０４）。

そして、ＣＰＵ１０１は、キー操作部１２１のＳＴＯＰキー（停止キー）２１３が押下操作されたか否かを判断する（ステップＳ１０５）。ステップＳ１０５の判断処理において、ＳＴＯＰキー２１３が操作されたと判断したときには、後述もするように、所定の終了処理を行って（ステップＳ１１４）、この図４に示す処理を終了する。

ステップＳ１０５の判断処理において、ＳＴＯＰキー２１３は操作されていないと判断したときには、ＣＰＵ１０１は、Ａ／Ｄコンバータ１３２にマイクロホン１３１を通じて入力されるアナログ音声信号をデジタル音声信号に変換することを指示し、集音音声のデジタル変換を行うようにする（ステップＳ１０６）。

これにより、Ａ／Ｄコンバータ１３２は、マイクロホン１３１を通じて入力されるアナログ音声信号を一定周期ごと（所定の処理単位ごと）に変換したデジタル音声信号を、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）に書き込み、書き込んだことをＣＰＵ１０１に通知する（ステップＳ１０７）。

これを受けて、ＣＰＵ１０１は、データ圧縮処理部１４１に対し、ＲＡＭ１０４のＰＣＭデータ領域１０３（２）に格納したデジタル音声信号（ＰＣＭデータ）をデータ圧縮するように指示する（ステップＳ１０８）。これに応じて、データ圧縮処理部１４１は、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）のデジタル音声信号を圧縮処理し、圧縮したデジタル音声信号をＲＡＭ１０３の圧縮データ領域１０３（１）に書き込む（ステップＳ１０９）。

そして、ＣＰＵ１０１は、ファイル処理部１１０に対して、ＲＡＭ１０３の圧縮データ領域１０３（１）の圧縮されたデジタル音声信号をデータ記憶装置１１１に作成した音声ファイル１１１（２）に書き込むことを指示し、これにより、ファイル処理部１１０により、ＲＡＭ１０３の圧縮データ領域の圧縮されたデジタル音声信号が、データ記憶装置１１１の音声ファイル１１１（２）に書き込まれる（ステップＳ１１０）。

ファイル処理部１１０は、圧縮されたデジタル音声信号の音声ファイル１１１（２）への書き込みを終了すると、これをＣＰＵ１０１に通知するので、ＣＰＵ１０１は、音声特徴解析部１４３に対して、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）に先に記録されたデジタル音声信号の特徴解析を指示し、音声特徴解析部１４３によって、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）のデジタル音声信号の特徴を抽出する（ステップＳ１１１）。

なお、音声特徴解析部１４３において行われるデジタル音声信号の特徴解析（特徴抽出）処理は、声紋分析、話速分析、間の取り方の分析、音声の強弱の分析などの種々の方法を用いることが可能である。ここでは説明を簡単にするため、この第１の実施の形態のＩＣレコーダの音声特徴解析部１４３は、声紋分析を行うことにより、解析対象のデジタル音声信号の特徴を抽出するものとして説明する。

そして、音声特徴解析部１４３は、今回抽出した音声の特徴（声紋データ）と、過去に抽出した音声の声紋データとを比較し、入力された音声信号から抽出した特徴が、これまでの音声の特徴から変化したか否かを判断し、その判断結果をＣＰＵ１０１に対して通知するので、これに基づき、ＣＰＵ１０１は、集音音声の特徴が変化したか否かを判断する（ステップＳ１１２）。

ステップＳ１１２の判断処理において、変化がなかったと判断したときには、ＣＰＵ１０１は、ステップＳ１０５からの処理を繰り返し、次の周期（次の処理単位）の音声信号についても、上述したステップＳ１０５からステップＳ１１２までの処理を行うようにする。

ステップＳ１１２の判断処理において、変化があったと判断したときには、ＣＰＵ１０１は、「話者が切り替わった」と判断し、ファイル処理部１１０に対して、処理対象の音声信号上の音声の特徴の変化点にマークを付することを指示する（ステップＳ１１３）。これにより、ファイル処理部１１０は、データ記録装置１１１上のデータベース領域１１１（１）に当該音声ファイル１１１（２）に関する情報として、音声の特徴に変化のあった場所を示す情報として、当該音声ファイル１１１（２）の先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。

このステップＳ１１３の処理の後、ＣＰＵ１０１は、ステップＳ１０５からの処理を繰り返し、次の周期（次の処理単位）の音声信号についても、上述したステップＳ１０５からステップＳ１１２までの処理を行うようにする。

そして、ステップＳ１０５の判断処理において、ユーザがＳＴＯＰキー２１３を押下操作したと判断したときには、ＣＰＵ１０１は、ファイル処理部１１０に対してデータ記憶装置１１１の音声ファイル１１１（２）へのデータの書き込みの停止を、データ圧縮処理部１４１に対して圧縮処理の停止を、Ａ／Ｄコンバータ１３２に対してデジタル信号への変換の停止を指示する等の所定の終了処理を行って（ステップＳ１１４）、この図４に示す処理を終了する。

なお、音声特徴解析部１４３において行われる音声の特徴が変化したか否かの判断は、過去に抽出した音声の特徴データ（声紋データ）を保持しておき、これと新たに抽出した特徴データ（声紋データ）とを比較することにより行う。この場合、直前の１つの特徴データだけと比較するだけでよいのであれば、過去の特徴データは、常に直前の１つだけを保持しておけばよい。しかし、精度を向上させるため、過去の２つ以上の特徴データと比較し、２つ以上の違いが生じた場合に特徴が変化したと判断するようにする場合には、２つ以上の過去の特徴データを保持しておく必要がある。

このように、この第１の実施の形態のＩＣレコーダは、集音して録音する音声信号の特徴解析を行い、その集音音声信号の特徴の変化点を検出して、その変化点に相当する集音音声信号上の位置にマークを付すようにすることができるものである。

[再生処理について]
次に、再生処理について説明する。図５は、この第１の実施の形態のＩＣレコーダにおいて行われる再生処理を説明するためのフローチャートである。図５に示す処理は、ＣＰＵ１０１が各部を制御することにより行われる処理である。

この第１の実施の形態のＩＣレコーダの再生処理においては、図４を用いて説明したように、録音処理時に付される集音音声（集音して録音する音声）の特徴の変化点に付されたマークを利用して、録音された音声信号から迅速に目的とする音声信号部分を検出することができるようにしている。

この第１の実施の形態のＩＣレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる（ステップＳ２０１）。ユーザが操作部１２１にある操作キーを押下すると、入力処理部１２０がそれを検知し、ＣＰＵ１０１に通知するので、ＣＰＵ１０１は、受け付けた操作入力は、ＰＬＡＹキー２１２の押下操作か否かを判断する（ステップＳ２０２）。

ステップＳ２０２の判断処理において、受け付けた操作入力は、ＰＬＡＹキー２１２の押下操作ではないと判断したときには、ＣＰＵ１０１はユーザにより操作されたキーに応じた処理、例えば、ＲＥＣキー２１２に応じた録音処理、ＮＥＸＴキー１２４に応じた次のマークへの位置付け処理、ＰＲＥＶキー２１５に応じた１つ前のマークへの位置付け処理などを行うことになる（ステップＳ２０３）。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。

ステップＳ２０２の判断処理において、受け付けた操作入力は、ＰＬＡＹキーの押下操作であると判断したときには、ＣＰＵ１０１は、ファイル処理部１１０にデータ記録装置１１１上の音声ファイル１１１（２）の読み出しを指示する（ステップＳ２０４）。そして、ＣＰＵ１０１は、キー操作部１２１のＳＴＯＰキー（停止キー）２１３が押下操作されたか否かを判断する（ステップＳ２０５）。

ステップＳ２０５の判断処理において、ＳＴＯＰキー２１３が操作されたと判断したときには、後述もするように、所定の終了処理を行って（ステップＳ２１９）、この図５に示す処理を終了することになる。

ステップＳ２０５の判断処理において、ＳＴＯＰキー２１３が操作されていないと判断したときには、ＣＰＵ１０１はファイル処理部１１０を制御し、データ記憶装置１１１の音声ファイル１１１（２）に記憶されている圧縮されたデジタル音声信号をシステムで規定された所定の処理単位の量だけ読み出し、ＲＡＭ１０３の圧縮データ領域１０３（１）に書き込むようにする（ステップＳ２０６）。

書き込みが終了すると、これがＣＰＵ１０１に通知されるので、ＣＰＵ１０１は、データ伸張処理部１４２に対して、ＲＡＭ１０３の圧縮データ領域１０３（１）の圧縮されたデジタル音声信号の伸長処理を行うことを指示し、データ伸張処理部１４２によって圧縮されたデジタル音声信号の伸張処理を行って、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）に書きこむようにする（ステップＳ２０７）。

書き込みが終了すると、これがＣＰＵ１０１に通知されるので、ＣＰＵ１０１は、Ｄ／Ａコンバータ１３４に対し、ＲＡＭ１０３のＰＣＭデータ領域１０３（２）に格納されたデジタル音声信号（伸張されたデジタル音声信号）をアナログ音声信号に変換し、スピーカ１３３に供給するように制御する。

これにより、データ記憶装置１１１の音声ファイル１１１（２）に記憶保持されているデジタル音声信号に応じた音声が、スピーカ１３３から放音するようにされる。そして、Ｄ／Ａコンバータ１３４は、Ｄ／Ａ変換したアナログ音声信号を出力したことをＣＰＵ１０１に通知してくるので、ＣＰＵ１０１は、キー操作部１２１の操作キーが操作されたか否かを判断する（ステップＳ２０９）。

ステップＳ２０９の判断処理において、操作キーは操作されていないと判断したときには、ステップＳ２０５からの処理を繰り返し、データ記憶装置１１１の音声ファイル１１１（２）のデジタル音声信号の再生を続行する。

ステップＳ２０９の判断処理において、操作キーが操作されたと判断したときには、ＣＰＵ１０１は、操作されたキーは、ＰＲＥＶキー２１５か否かを判断する（ステップＳ２１０）。ステップＳ２１０の判断処理において、ＰＲＥＶキー２１５が操作されたと判断したときには、ＣＰＵ１０１は、ファイル処理部１１０に対して音声ファイル１１１（２）からのデジタル音声信号の読み出しの停止を指示し、データ伸張処理部１４２に対して伸長処理の停止を指示し、Ｄ／Ａコンバータ１３４に対してアナログ信号への変換の停止を指示する（ステップＳ２１１）。

次に、ＣＰＵ１０１は、ファイル処理部１１０にデータ記憶装置１１１のデータベース領域１１１（１）から現在再生している位置の直前のマークの情報（変化点情報）を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし（ステップＳ２１２）、図３を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して（ステップＳ２１３）、ステップＳ２０５からの処理を繰り返す。

ステップＳ２１０の判断処理において、操作されたキーは、ＰＲＥＶキー２１５ではないと判断されたときには、ＣＰＵ１０１は、操作されたキーは、ＮＥＸＴキー２１４か否かを判断する（ステップＳ２１４）。ステップＳ２１４の判断処理において、ＮＥＸＴキー２１４が操作されたと判断したときには、ＣＰＵ１０１は、ファイル処理部１１０を制御し、音声ファイル１１１（２）からのデジタル音声信号の読み出しの停止を、データ伸張処理部１４２に伸長処理の停止を、Ｄ／Ａコンバータ１３４にアナログ信号への変換の停止を、それぞれ指示する（ステップＳ２１５）。

次に、ＣＰＵ１０１は、ファイル処理部１１０にデータ記憶装置１１１のデータベース領域１１１（１）から現在再生している位置の直後のマークの情報（変化点情報）を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし（ステップＳ２１６）、図３を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して（ステップＳ２１７）、ステップＳ２０５からの処理を繰り返す。

ステップＳ２１４の判断処理において、操作されたキーは、ＮＥＸＴキー２１４ではないと判断されたときには、ＣＰＵ１０１は、操作されたキーに応じた処理、例えば、早送り、早戻しなどの操作されたキーに応じた処理を行って、ステップＳ２０５からの処理を繰り返す。

このように、録音時にＩＣレコーダが音声の特徴に変化があったことを話者の切り替わりと判断し，その位置にマークを自動的につけることで，ユーザは再生時にＰＲＥＶキー２１５、ＮＥＸＴキー２１４を押下操作して簡単に各発言の先頭位置を呼び出すことが可能になり、議事録作成時において、ある発言を繰り返し再生させたいときや、重要な発言を見つけ出す際の手間が大幅に削減できる。すなわち、録音された音声信号中から、目的とする音声信号部分を迅速に検索することができる。

しかも、集音音声の特徴の変化点は自動検出され、その変化点へのマークの付与も自動的に行われるので、変化点へのマークの付与に関し、ユーザの手を煩わせることは一切ない。

[第１の実施の形態の変形例]
ところで、会議の様子を録音し、この録音に基づいて議事録を作成する場合、誰がどこで発言をしたかを、録音音声を再生することなく知ることができればより便利である。そこで、この変形例のＩＣレコーダは、会議への出席者の音声の特徴解析結果である声紋データを、各出席者を識別するためのシンボルと対応付けて記憶させておくことによって、話者を特定できるマークを付すようにしたものである。

この変形例のＩＣレコーダは、図１に示した第１の実施の形態のＩＣレコーダと同様に構成されるものである。しかし、この変形例のＩＣレコーダの例えば外部記憶装置の１１１やＲＡＭ１０３の記憶領域には、会議の出席者についての音声特徴データベースを形成するようにしたものである。なお、以下の説明においては、音声特徴データベースは、外部記憶装置１１１に形成するものとして説明する。

図６は、この変形例のＩＣレコーダの外部記憶装置１１１の記憶領域に形成される音声データベースの一例を説明するための図である。図６に示すように、この例の音声データベースは、会議の出席者を識別するための識別子（例えば、登録順に応じたシーケンスナンバなど）と、会議の出席者の名前、会議の出席者の音声の特徴解析結果である声紋データ、会議の出席者の顔写真などの画像データ、会議の出席者のそれぞれに割り当てられたアイコンデータ、その他、テキストデータなどからなるものである。

声紋データ、画像データ、アイコンデータ、その他のデータのそれぞれは、ファイルの形式で外部記憶装置１１１に記憶されており、それが会議の各出席者の識別子をキー情報（対応付け情報）として記憶保持されている。なお、特徴解析結果である声紋データは、会議に先だって、会議の出席者の音声を集音し、特徴解析を行うことにより予め得るようにしたものである。

すなわち、この例のＩＣレコーダは、音声データベース作成モードを有するものである。そして、音声データベース作成モードが選択された場合には、会議の出席者の音声を集音し、この集音音声の特徴解析を音声特徴解析部１４３で行って声紋データを得て、この声紋データをシーケンスナンバなどの識別子と対応付けて、外部記憶装置１１１の記憶領域に記憶することができるものである。

識別子と声紋データ以外の情報である、名前、画像データ、アイコンデータなどの情報は、接続端子１４５に接続される例えばパーソナルコンピュータなどを通じて、この例のＩＣレコーダに供給され、図６に示したように、対応する識別子、声紋データと関連付けられて記憶保持するようにされる。もちろん、名前などは、ＩＣレコーダのキー操作部１２１に設けられている操作キーを操作して入力することも可能である。また、画像データは、接続端子１４５に接続されるデジタルカメラから取り込むことも可能である。

そして、この例のＩＣレコーダもまた、図１、図２および図４を用いて説明したように、集音音声の特徴解析を行って、声紋データの変化点を検出し、その変化点に対応する音声信号上の位置にマークを自動的に付与していくのであるが、変化点を検出した場合に、最新の集音音声の声紋データと、音声データベースの声紋データとのマッチングを行い、声紋データが一致した会議の出席者の識別子を付与するマークに含めるようにしている。

図７は、この変形例のＩＣレコーダにおいて行われる集音して録音する音声信号にマークを付す処理の概要を説明するための図である。基本的にマークを付す処理は、図２を用いて説明した場合と同様に行なわれる。しかし、マークには、話者の識別子が付加される。

図７に示すように、会議の様子を録音するようにした場合、録音開始から１０秒後に、Ａさんが発言を始めたとする。この場合、Ａさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されているので、集音した音声信号の特徴解析結果は、Ａさんが発言を始める前とは明らかに異なることになる。この変化点の音声信号上の位置を特定（取得）して、この特定した変化点情報を図７におけるマークＭＫ１として記憶保持する。

この場合に、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者（会議の出席者）の識別子をマークＭＫ１に含めるようにする。なお、図７においても、録音開始からの経過時間を変化点情報として記憶保持している場合を示している。

そして、Ａさんの発言が終了した後、少し間をおいて、Ｂさんが発言を始めたとする。このＢさんの発言の直前も、無音あるいは雑音であったとする。この場合にも、Ｂさんが発言を始め、それが集音されることにより、集音した音声信号の特徴解析結果は、Ｂさんが発言を始める前とは明らかに異なることになり、図７において、マークＭＫ２が示すように、Ｂさんの発言の開始部分にマークを付すように、変化点情報（マークＭＫ２）を記憶保持する。

この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者（会議の出席者）の識別子をマークＭＫ２に含めるようにする。

さらに、Ｂさんの発言の途中でＣさんが割って入ったような場合も発生するが、この場合には、Ｂさんの話し声とＣさんの話し声とでは異なっているために、集音した音声信号の解析結果も異なることになり、図７において、マークＭＫ３が示すように、Ｃさんの発言の開始部分にマークを付すように、変化点情報（マークＭＫ３）を記憶保持する。

この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者（会議の出席者）の識別子をマークＭＫ３に含めるようにする。

このようにすることによって、録音した音声信号のどの部分が誰の発言部分であるかを特定することができるようにされ、例えば、Ａさんの発言部分だけを再生するようにしてＡさんの発言の要旨をまとめるなどのことが簡単にできるようになる。

なお、この変形例の各マークのその他の情報は、例えば、集音音声の音声認識を行って、集音音声をテキストデータに変換し、このテキストデータをその他の情報としてファイル形式（テキストデータファイル）で記憶保持するようにしている。このテキストデータを用いることにより、議事録や発言の要約を迅速に作成することができるようにされる。

そして、この変形例のＩＣレコーダにおいても、図１、図３、図５を用いて説明した場合と同様にして、録音音声の再生を行うことができるようにされる。そして、この変形例のＩＣレコーダの場合には、録音音声における各発言者の発言部分の録音音声を再生することなく特定することができるようにされる。

図８は、録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するＬＣＤ１３５の表示情報の変化を示す図である。図８に示すように、ＰＬＡＹキー２１１が押下操作されると、上述もしたように、ＣＰＵ１０１は各部を制御し、指示された録音音声信号の先頭から再生を開始するようにする。

そして、Ａさんの発言部分においては、図７を用いて説明したように、録音処理時に付された（記憶保持された）マークＭＫ１に基づいて、図８Ａに示すように、Ａさんについての、発言の開始時刻Ｄ（１）、話者の画像データに応じた顔写真Ｄ（２）、話者の名前Ｄ（３）、発言の最初の部分のテキストデータＤ（４）が表示されると共に、再生中表示Ｄ（５）が表示される。

そして、再生が続行され、Ｂさんの発言部分の再生が開始されると、録音時に付されたマークＭＫ２に基づいて、図８Ｂに示すように、Ｂさんについての、発言の開始時刻Ｄ（１）、話者の画像データに応じた顔写真Ｄ（２）、話者の名前Ｄ（３）、発言の最初の部分のテキストデータＤ（４）が表示されると共に、再生中表示Ｄ（５）が表示される。

この後、ＰＲＥＶキー２１５が押下操作されると、ＣＰＵ１０１は、図８Ｃに示すように、開始時刻が先頭から１０秒後（０分１０秒後）のマークＭＫ１が示すＡさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図８Ａの場合と同様に、Ａさんについての、発言の開始時刻Ｄ（１）、話者の画像データに応じた顔写真Ｄ（２）、話者の名前Ｄ（３）、発言の最初の部分のテキストデータＤ（４）が表示されると共に、再生中表示Ｄ（５）が表示される。

この後、ＮＥＸＴキーが押下操作されると、ＣＰＵ１０１は、図８Ｄに示すように、開始時刻が先頭から１分２５秒後のマークＭＫ２が示すＢさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図８Ｂの場合と同様に、Ｂさんについての、発言の開始時刻Ｄ（１）、話者の画像データに応じた顔写真Ｄ（２）、話者の名前Ｄ（３）、発言の最初の部分のテキストデータＤ（４）が表示されると共に、再生中表示Ｄ（５）が表示される。

さらに、ＮＥＸＴキーが押下操作されると、ＣＰＵ１０１は、図８Ｅに示すように、開始時刻が先頭から２分３０秒後のマークＭＫ３が示すＣさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、Ｃさんについての、発言の開始時刻Ｄ（１）、話者の画像データに応じた顔写真Ｄ（２）、話者の名前Ｄ（３）、発言の最初の部分のテキストデータＤ（４）が表示されると共に、再生中表示Ｄ（５）が表示される。

なお、この変形例において、例えばＡさんの発言部分を再生中にＮＥＸＴキーまたはＰＲＥＶキーをすばやく２回押下すると、次にＡさんの発言部分が出現する部分またはこれ以前にＡさんの発言部分が出現した部分に再生位置を位置付け、そこから再生を開始するモードを付加してもよい。つまり、この操作を繰り返すことにより、Ａさんの発言部分のみを辿って、あるいは遡って再生させることができる。もちろん、ＮＥＸＴキーやＰＲＥＶキーではなく、このモードを明示的に示す操作キーを設けてもよく、その場合には自動的に次々とＡさんの発言部分が再生されるようにする。

このように、この変形例のＩＣレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付与するようにすると共に、再生処理時においては、ＮＥＸＴキー２１４、ＰＲＥＶキー２１５を操作することによって、付与されたマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。

しかも、録音された音声信号の変化点においては、誰の発言部分であるかを、話者の名前の表示や顔写真の表示により明確に示すことができるので、目的とする話者の発言部分を迅速に検索することができると共に、特定の話者の発言部分のみを再生するようにするなどのことが簡単にできる。もちろん、話者を特定するための情報として、各話者に固有のアイコンデータに応じたアイコンを表示するようにしてもよい。また、発言の最初の部分のテキストデータを表示することもできるので、目的とする発言部分か否かを判断する際に役立てることができる。

そして、この変形例のＩＣレコーダのユーザは、再生時の表示情報をも利用して、目的とする人の発言部分に再生位置を迅速に位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。

換言すれば、録音後に録音音声信号をいちいち再生することなく、どこに誰の発言があるのかを視覚的に把握することができ、特定の話者の発言を簡単に探し出すことが可能になる。シンボルには文字列や記号の他に話者の顔写真など、より話者を特定し易くできるような情報が利用できるので、検索性が向上する。

また、音声の特徴が未登録の話者(登録済みであってもＩＣレコーダが識別できなかった場合)の発言には未登録話者であることを意味するシンボルを対応付けておくことで、その部分を見つけ易くできる。この場合、議事録作成者は、未登録話者の発言部分を再生し、それが誰であるかを判断すればよい。

未登録話者が誰であるかがわかったときには、それが登録済みの話者であったならば、その話者に対応付けられたシンボルをマークとして付け直せるようにすることもできる。また、未登録の話者であった場合は，話者の新規登録操作を行えるようにすることもできる。音声の特徴は録音音声から抽出し、対応付けるシンボルはＩＣレコーダに予め登録済みの記号や文字列入力、ＩＣレコーダにカメラ撮影機能があれば撮影した画像，または外部機器から取り込んだ画像データなどを用いる。

なお、この変形例のＩＣレコーダの録音処理は、図４を用いて説明した録音処理と同様に行われるが、ステップＳ１１３の話者の切り替わりのマークＭＫ１、ＭＫ２、ＭＫ３、…を付与する処理において、音声データベースの声紋データとのマッチングを行って、該当する話者の識別子が付加するようにされる。また、該当する声紋データが無かった場合には、該当なしを示すマークが付与されることになる。

また、この変形例のＩＣレコーダの再生処理は、図５を用いて説明した再生処理と同様に行われるが、ステップＳ２１３、ステップＳ２１７の再生位置情報の表示処理において、話者の顔写真や氏名、発言内容のテキストデータなどが表示するようにされることになる。

なお、この変形例のＩＣレコーダの場合にも、変化点情報として、録音開始時点からの時刻を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置１１１の記録媒体上のアドレスを変化点情報として用いるようにしてもよい。

［マーク付与処理の実行タイミングについて］
上述した第１の実施の形態のＩＣレコーダ、第１の実施の形態の変形例のＩＣレコーダにおいては、録音処理時に集音音声の変化点を検出し、その変化点に対応する音声信号上の位置にマークを付すようにしたが、これに限るものではない。録音処理終了後において、マークを付すようにすることができる。すなわち、再生処理時にマークを付すようにしたり、あるいは、マーク付与処理だけを行うようにしたりすることが可能である。

図９は、録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を説明するためのフローチャートである。すなわち、図９に示す処理は、再生処理時において録音音声の変化点にマークを付すようにする場合、あるいは、録音音声の変化点に対してマーク付与処理だけを独立に行う場合において行われるものである。この図９に示す処理もまた、ＩＣレコーダのＣＰＵ１０１が各部を制御することにより行なわれる処理である。

まず、ＣＰＵ１０１は、ファイル処理部１０４を制御して、データ記憶装置１１１の音声ファイルにデータ圧縮されて記憶されている録音音声信号を所定単位分づつ読み出し（ステップＳ３０１）、全ての録音音声信号の読み出しを終了しているか否かを判断する（ステップＳ３０２）。

ステップＳ３０２の判断処理において、全ての録音音声信号が読み出されていないと判断したときには、ＣＰＵ１０１は、データ伸張処理部１４２を制御して、データ圧縮されている録音音声信号の伸張処理を行う（ステップＳ３０３）。この後、ＣＰＵ１０１が、音声特徴解析部１４３を制御して、伸張した音声信号の特徴解析を行って、声紋データを得て、先に取得した声紋データと比較することによって、録音音声信号の特徴が変化したか否かを判断する（ステップＳ３０５）。

ステップＳ３０５の判断処理において、録音音声信号の特徴は変化していないと判断したときには、ステップＳ３０１からの処理を繰り返すようにする。また、ステップＳ３０５の判断処理において、録音音声信号の特徴が変化したと判断したときには、ＣＰＵ１０１は、「話者が切り替わった」と判断し、ファイル処理部１１０に音声の特徴に変化があった場所にマークを付加することを指示する（ステップＳ３０６）。

これにより、ファイル処理部１１０は、データ記録装置１１１上のデータベース領域１１１（１）に当該音声ファイル１１１（２）に関する情報として、音声の特徴に変化のあった場所を示す情報として、ファイルの先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。

このステップＳ３０６の処理の後、ＣＰＵ１０１は、ステップＳ３０１からの処理を繰り返し、次の周期（次の処理単位）の音声信号についても同様の処理を行う。そして、ステップＳ３０２の判断処理において、全ての録音音声信号について読み出しが終了していると判断したときには、所定の終了処理を行って（ステップＳ３０７）、この図９に示す処理を終了する。

これにより、録音処理後において、再生処理時に録音音声の変化点を検出し、当該録音音声信号に対してマークを付与するようにしたり、あるいは、録音音声に対してマーク付与処理だけを独立に行うようにしたりすることができる。再生処理時において、マークの付与を行う場合には、図９に示したステップＳ３０３で伸張処理された音声信号をＤ／Ａ変換し、Ｄ／Ａ変換後のアナログ音声信号をスピーカ１３３に供給するようにすればよい。

このように、録音後に録音音声信号の特徴の変化点に対してマークを付与するようにすることによって、録音時の処理の負荷と消費電力を軽減することが期待できる。また、ユーザがすべての録音において自動マーク付けを希望しない場合もある。録音時の自動マーク付け機能のオン／オフ設定ができるようにしてもよい。そして、ユーザがオフに設定したまま録音してしまった場合に、後でマーク付けが必要になった場合には、上述のようにして、録音処理後においても、録音音声信号に対してマーク付けができるので、非常に便利である。

また、上述したように、録音された音声信号に対するマーク付けが可能であるので、録音機能を持たないが信号処理機能を備えた機器への適用が可能になる。例えば、パーソナルコンピュータのアプリケーションソフトに、この発明を適用することも可能である。すなわち、音声録音機器で録音された音声信号をパーソナルコンピュータに転送し、このパーソナルコンピュータ上で動作する上述の信号処理アプリケーションソフトにより、マーク付けをすることができる。

また、この発明を適用した機器で作成したデータを、ネットワークなどを介して共有することで、このデータから議事録を書き起こすことなく、このデータそのものを議事録として用いることも可能になる。

したがって、この発明は、録音機器だけでなく、信号処理が可能な種々の電子機器に適用可能であり、既に録音済みの音声信号であっても、この発明を適応したで電子機器で処理することにより、同様の結果を得ることができる。すなわち、議事録の作成を効率的に行うことができるようにされる。

また、上述もしたように、図１を用いて説明した第１の実施の形態のＩＣレコーダは、通信Ｉ／Ｆ１４４を備えており、パーソナルコンピュータなどの電子機器に接続可能である。そこで、上述した第１の実施の形態のＩＣレコーダで録音されると共に、変化点にマークが付すようにされた音声信号（デジタル音声信号）をパーソナルコンピュータに転送するようにすれば、パーソナルコンピュータの大きな表示画面の表示装置を通じて、詳細情報をより多く表示し、目的とする発言者の発言部分を迅速に検索することができる。

図１０、図１１は、上述した第１の実施の形態のＩＣレコーダからパーソナルコンピュータに転送された録音音声信号、付与された変化点情報（マーク情報）に基づいて、パーソナルコンピュータに接続された表示装置２００の表示画面への変化点情報の表示例を説明するための図である。

図１０の場合には、録音音声信号に対応する時間帯表示２０１と、その時間帯表示２０１の該当位置に、マーク表示（変化点表示）ＭＫ１、ＭＫ２、ＭＫ３、ＭＫ４、…を表示するようにする。このようにすれば、複数の変化点の位置を一見して認識することができる。そして、例えばマウスなどのポインティングデバイスを用いて、目的とするマーク表示にカーソルを位置付けてクリックすることにより、その位置から録音音声の再生を行うようにすることなどができるようにされる。

また、図１１の場合には、図８に示した表示を、表示装置２００の表示画眼に複数個いっぺんに表示するようにしたものであり、話者の顔写真２１１（１）、２１１（２）、２１１（３）、…や発言内容に応じたテキストデータ２１２（１）、２１２（２）、２１２（３）、…を表示して、目的とする話者の発言部分を迅速に検索するなどのことができるようにされる。また、パーソナルコンピュータの機能を用いて、タイトル表示２１０を行うようにすることもできる。

なお、図１１の表示例の場合、左側の「００」、「０１」、「０２」、「０３」、…は、録音音声の先頭からの時間を示すものである。もちろん、図８に示したような表示を複数個行うようにするなど、種々の表示態様の実現が可能である。

そして、発言（録音音声）とその発言者を識別する情報(シンボル)とが対応付けられたデータをパーソナルコンピュータなど表示部が大きい機器に転送すれば、音声データから文章を書き起こさなくても議事録が作成できる。つまり、この発明を適用したＩＣレコーダで録音したデータそのものが議事録になっていることになる。

また、そのデータをＷｅｂページで公開し、Ｗｅｂブラウザで閲覧できるようにするプラグイン（plug-in）のようなソフトウェアを用意すれば、ネットワークを通じて議事録を共有することが可能になる。これにより情報の共有、すなわち、情報を公開するまでの手間と時間が、この発明を用いることにより、大幅に削減できる。

[第２の実施の形態]
［ＩＣレコーダの構成と動作の概要］
図１２は、この第２の実施の形態の記録再生装置であるＩＣレコーダを説明するためのブロック図である。この第２の実施の形態のＩＣレコーダは、２つのマイクロホン１３１（１）、１３１（２）と、これら２つのマイクロホン１３１（１）、１３１（２）からの音声信号を処理する音声信号処理部１３６を備える点を除けば、図１に示した第１の実施の形態のＩＣレコーダと同様に構成されるものである。このため、この第２の実施の形態のＩＣレコーダにおいて、図１に示した第１の実施の形態のＩＣレコーダと同様に構成される部分には同じ参照符号を付し、その部分の詳細な説明については省略することとする。

そして、この第２の実施の形態のＩＣレコーダにおいては、２つのマイクロホン１３１（１）、１３１（２）のそれぞれからの集音音声信号を音声信号処理部１３６において処理することにより、話者の位置（音源の位置）を特定するようにし、これをも考慮して集音した音声信号の変化点（話者の変化点）を特定することができるようにしたものである。すなわち、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合の補助情報として、２つのマイクロホンの集音音声に基づく、話者の位置をも用いて、より正確に、変化点や話者を特定することができるようにしたものである。

図１３は、マイクロホン１３１（１）、１３１（２）と、音声信号処理部１３６との構成例を説明するための図である。この図１３に示す例の場合、２つのマイクロホン１３１（１）、１３１（２）のそれぞれは、図１３にそれらの指向特性を示したように、いずれも単一指向性のものである。そして、マイクロホン１３１（１）、１３１（２）は、主指向方向が逆向きとなるように背中あわせに近接配置されている。これにより、マイクロホン１３１（１）は発言者Ａの音声を良好に集音し、マイクロホン１３１（２）は発言者Ｂの音声を良好に集音することができるようにされる。

そして、音声信号処理部１３６は、図１３に示したように、加算器１３６１と、コンパレータ（比較器）１３６２と、Ａ／Ｄコンバータ１３６３とを備えたものである。そして、マイクロホン１３１（１）、１３１（２）のそれぞれ集音された音声信号は、加算器１３６１と、コンパレータ１３６２に供給される。

加算器１３６１は、マイクロホン１３１（１）からの集音音声信号と、マイクロホン１３１（２）からの集音音声信号とを加算し、加算後の音声信号をＡ／Ｄコンバータ１３６３に供給する。マイクロホン１３１（１）からの集音音声とマイクロホン１３１（２）からの集音音声の加算信号は、次の（式１）のように表すことがで、無指向性マイクで集音したものと同じになることが分かる。
（（１＋ｃｏｓθ）／２）＋（（１−ｃｏｓθ）／２）＝１ …（１式）
また、コンパレータ１３６２は、マイクロホン１３１（１）からの集音声信号と、マイクロホン１３１（２）からの集音音声信号とを比較する。そして、コンパレータ１３６２は、マイクロホン１３１（１）からの集音音声信号のレベルの方が大きければ、発言者Ａが主に発言していると判断し、値が「１（ハイレベル）」となる話者判別信号を制御部１００に供給する。また、コンパレータ１３６２は、マイクロホン１３１（２）からの集音音声信号のレベルの方が大きければ、発言者Ｂが主に発言していると判断し、値が「０（ローレベル）」となる話者判別信号を制御部１００に供給する。

これにより、マイクロホン１３１（１）からの集音音声信号と、マイクロホン１３１（２）からの集音音声信号とに基づいて、話者の位置を特定するようにし、発言者Ａの発言か発言者Ｂの発言かを判別することができるようにしている。

なお、３人目の発言者Ｃが、マイクロホン１３１（１）、１３１（２）の主指向方向と交差する方向（図１３において、発言者Ａ、発言者Ｂをそれぞれ斜め前方に見る位置（図１３の横方向））から発言した場合には、マイクロホン１３１（１）、１３１（２）からの集音音声の出力レベルはほぼ等しくなる。

このような位置にある発言者Ｃについても対応する場合には、コンパレータ１３６２における閾値を２つ設けて、レベル差が±Ｖｔｈ以内なら横方向にいる発言者Ｃによる発言であると判断し、レベル差が＋Ｖｔｈより大きければ発言者Ａであり、レベル差が−Ｖｔｈより小さければ発言者Ｂであると判断するようにしてもよい。

そして、マイクロホン１３１（１）の指向方向に位置する発言者、マイクロホン１３１（２）の指向方向に位置する発言者、マイクロホン１３１（１）、１３１（２）の指向方向と交差する方向に位置する発言者のそれぞれが誰であるかを把握しておくことにより、発言者（話者）が誰であるかを識別することができるようにされる。したがって、集音音声の特徴解析の結果得られる声紋データによる変化点検出の他に、マイクロホンの集音音声のレベルをも考慮することにより、発言者の特定をより正確に行うようにすることができる。

［マイクロホンと音声信号処理部の他の例］
また、マイクロホン１３１（１）、１３１（２）と音声信号処理部１３６とは、図１４に示すように構成することもできる。すなわち、図１４は、マイクロホン１３１（１）、１３１（２）と、音声信号処理部１３６との他の構成例を説明するための図である。この図１４に示す例の場合、２つのマイクロホン１３１（１）、１３１（２）のそれぞれは、図１４にそれらの指向特性を示したように、いずれも無指向性のものである。マイクロホン１３１（１）、１３１（２）は、例えば１ｃｍ位離間して近接配置するようにする。

また、図１４に示したように、この例の音声信号処理部１３６は、加算器１３６１、Ａ／Ｄコンバータ１３６３、減算器１３６４、位相比較器１３６５を備えたものである。そして、マイクロホン１３１（１）、１３１（２）のそれぞれからの集音音声信号は、加算器１３６１と減算器１３６４とのそれぞれに供給される。

ここで、加算器１３６１からの加算出力信号は、無指向性マイク出力と等価であり、減算器１３６４からの減算出力は、両指向性（８の字型指向性）マイク出力と等価である。両指向性マイクは、その音波の入射方向により出力の位相が正相または逆相になる。そこで、加算器１３６１からの加算出力（無指向性出力）と、減算器１３６４からの減算出力との間で位相コンパレータ１３６５により位相比較を行うことにより、減算器１３６４からの減算出力の極性を判断することにより発言者を特定できる。

すなわち、減算器１３６４からの減算出力の極性が正相の場合には、発言者Ａの発言を集音しており、減算器１３６４からの減算出力の極性が逆相の場合には、発言者Ｂの発言を集音していると判断することができる。

また、図１３を用いて説明した場合と同様に、発言者Ａ、発言者Ｂのそれぞれを斜め前方に見る位置（図１４の横方向）に位置する発言者Ｃの発言をも判断しようとする場合には、当該発言者Ｃの発言を集音した音声信号の減算出力は、そのレベルが小さくなる。そこで、加算器１３６１からの加算出力と、減算器１３６４からの減算出力とのレベルをチェックすることで、発言者Ｃの発言をも認識することが可能となる。

なお、図１４に示した音声信号処理部１３６の場合には、加算器１３６１を用いるようにした。しかし、加算器１３６１は必須の構成要素ではない。例えば、マイクロホン１３１（１）、または、１３１（２）のいずれか一方の出力信号を、Ａ／Ｄコンバータ１３６３と、位相比較器１３６５とに供給するようにしてもよい。

このように、図１３、図１４は、録音処理時において、２つのマイクロホン１３１（１）、１３１（２）の集音音声のレベルや極性を用いて、発言者の位置を特定することができるようにしている。そして、この特定結果をも考慮することにより、集音音声の変化点の検出、および、発言者の特定を精度良く行うことができるようにしている。

そして、図１３、図１４を用いた方式は、録音処理時だけでなく、再生処理時に録音音声に対してマークを付与する場合や、録音音声に対してマーク付与処理だけを独立に行う場合にも利用することができる。

例えば、図１３を用いて説明した方式を録音処理後において利用しようとする場合に置いては、図１５Ａに示すように、単一指向性のマイクロホン１３１（１）、１３１（２）のそれぞれからの集音音声信号を２チャンネルステレオ録音する。そして、図１５Ｂに示すように、再生時、あるいは、マーク付与処理を独立に行う場合において、外部記憶装置１１１から読み出されるデータ圧縮された２チャンネルの音声信号のそれぞれを伸張処理し、伸張処理後の２チャンネルの音声信号を図１３に示したコンパレータ１３６２と同様の機能を有するコンパレータに入力する。

これにより、マイクロホン１３１（１）の集音音声信号が主に用いられたか、マイクロホン１３１（２）の集音音声信号が主に用いられたかを判別することができ、この判別結果と、予め把握されている各マイクロホンに対する発言者の位置とに基づいて、発言者を特定することができる。

なお、図１４を用いて説明した方式を録音処理後において利用しようとする場合においても同様に、マイクロホン１３１（１）、１３１（２）からの出力信号を２チャンネルステレオ録音し、再生時やマーク付与処理を独立に行う場合において、図１４に示した音声信号処理部１３６と同様の処理を行うことによって、発言者を特定することができる。

そして、マイクロホン１３１（１）、１３１（２）からの出力信号を用いた発言者の特定処理を行う場合に予め用意するマイクロホン１３１（１）、１３１（２）のそれぞれに対する発言者の位置情報は、例えば、図１６に示す話者位置データベースのようにして、ＩＣレコーダに記憶保持されておくようにすればよい。

図１６は、話者位置データベースの一例を説明するための図である。この例の話者位置データベースは、ＩＣレコーダの音声信号処理部１３６からの識別結果に対応する話者識別信号と、各話者識別信号に対応するマイクロホンの識別情報と、各マイクロホンを主に用いる発言者候補の識別子（話者識別子）からなるものである。また、図１６に示したように、１つのマイクロホンに対して、話者識別子は複数個登録することができるようにしている。

この図１６に示すような話者位置データベースは、好ましくは、会議の始まる前に作成しておく。一般に、会議への出席者や各出席者の席順は予め決まっている場合が多いので、ＩＣレコーダの設置位置を考慮して、会議の始まる前に話者位置データベースを作成することが可能である。

また、会議への出席者の急な変更や、会議中において、座席が変更になった場合においては、例えば、マイクロホンの集音音声に応じた発言者の認識は行わないようにし、音声解析処理により得た声紋データによる変化点の検出だけを行うようにしたり、あるいは、録音処理後において、話者位置データベースを調整して正確なものとし、録音音声に対して、マークの付け直しを行うようにしたりすることもできる。

この図１６に示すような話者位置データベースを用いることにより、話者位置を特定し、その位置の話者自体をも特定することができるようにされる。

なお、この第２の実施の形態においては、２つのマイクロホン１３１（１）、１３１（２）を用い、発言者も２人または３人である場合を例にして説明したが、これに限るものではない。用いるマイクロホンを多くすることにより、より多くの発言者の識別を行うことが可能である。

また、マイクロホンからの出力信号に応じて、発言者の位置を特定することにより、発言者自身を特定する方式としては、図１３、図１４を用いて説明した方式に限るものではない。例えば、近接４点法や近接３点法などを用いるようにすることもできる。

近接４点法は、図１７Ａに示すように、必ず１つのマイクロホンが同一平面内にないようにして近接配置される４つのマイクロホンＭ０、Ｍ１、Ｍ２、Ｍ３で集音された音声信号の時間構造のわずかな違いに着目して、短時間相関あるいはインテンシティなどの手法により、音源の位置や大きさなどの空間情報を算出するようにする手法である。このように、少なくとも４つのマイクロホンを用いることにより、発言者の位置を性格に特定し、その発言者の位置（座席位置）に応じて、発言者を特定することも可能である。

また、発言者がほぼ水平面内に位置すると限定して差し支えない場合には、近接配置されるマイクロホンの配置関係は、図１７Ｂに示すように水平面内の３つでよい。

また、図１７Ａ、Ｂに示したように、各マイクロホンの配置関係は、直交関係とならなくてもよい。図１７Ｂに示した近接３点法の場合には、３つのマイクロホンが、例えば正三角形の頂点に配置されるような位置関係となるようにしてもよい。

［第２の実施の形態の変形例］
上述した第２の実施の形態のＩＣレコーダにおいては、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合に、２つのマイクロホンの集音音声に基づく、主に利用されているマイクロホンの判別結果をも考慮することによって、音声信号の変化点の検出をより精度良く行うようにした。しかし、これに限るものではない。

例えば、図１８に示すように、２つのマイクロホン１３１（１）、１３１（２）と、音声信号処理部１３６は備えるが、音声特徴解析部１４３を備えないようにしたＩＣレコーダを構成することも可能である。すなわち、図１８のＩＣレコーダは、音声特徴解析部１４３を備えない点を除けば、図１２に示した第２の実施の形態のＩＣレコーダと同様に構成されるものである。

そして、２つのマイクロホン１３１（１）、１３１（２）の集音音声に基づく、主に利用されているマイクロホンの判別結果のみに基づいて、話者の変化点を検出し、その変化点に応じた音声信号上の対応する位置にマークを付すようにすることもできる。このようにした場合には、音声特徴解析処理を行う必要が無いので、ＣＰＵ１０１にかかる負荷を軽減することができる。

なお、上述した実施の形態においては、処理対象の音声信号の変化点にマークを付すようにしたが、変化点であっても、話音声への変化点のみにマークを付すようにすることによって、より効率的に検索を行うようにすることができる。例えば、処理対象の音声信号の信号レベルや声紋データなどに基づいて、話音声とそれ以外の雑音などの不要部分とを明確に認識するようにし、話音声の開始点のみにマークを付すようにすることもできる。

また、声紋データや音声信号の周波数の特徴データなどに基づいて、話者が男性か女性かを判別して、変化点における話者の性別を通知するようにすることも可能である。

また、上述したように付されるマーク情報に基づいて、検索だけを行う用にする検索モードや、付されたマークの位置を変更したり、削除したり、追加したりするマーク編集モードや、また、付されたマークに応じて指定可能な話者の発言部分のみ、例えば、Ａさんの発言部分のみを再生するようにする特殊再生モードなどを設けるようにすることもできる。これらの各モードの実現は、ＣＰＵ１０１で実行するプログラムに追加のみによって比較的に簡単に実現可能である。

また、図６に示した音声特徴データベースの声紋データを、変化点の検出に用いた声紋データによって更新し、精度の高い音声特徴データベースにするなど、データベースの更新機能を持たせるようにしてもよい。例えば、声紋データの比較処理において不一致であっても、実際にその発言者の音声特徴データベースが存在している場合には、その発言者のデータベースの声紋データを新たに取得した声紋データに変更するようにすることができる。

また、声紋データの比較処理において一致しても、実際には違う話者の声紋データと一致してしまうような場合には、その異なる話者の声紋データを比較処理に用いないように設定するなどのこともできる。

また、声紋データが、複数の話者の声紋データと一致してしまうような場合には、正しい話者とだけ一致するように、用いる声紋データに優先順位を付けるようにしてももちろんよい。

また、マークを付す位置は、発言の開始点だけでなく、終了点に付すようにしてもよいし、その他、開始点から数秒後または数秒前などのユーザ個々の利便性を考慮して、変更できるようにすることも可能である。

また、音声信号の特徴解析は、上述もしたように、声紋解析だけでなく、種々の方法の１つ以上を用いることにより、精度の高い解析データを得るようにすることができる。

また、上述した第２の実施の形態においては、主に２つのマイクロホンを用いた場合を例にして説明したが、これに限るものではない。マイクロホンの数は２つ以上であれば、いくつでも良く、それら複数のマイクロホンの個々の集音音声の信号レベル、極性、また、集音までの遅延時間などの種々のパラメータを利用して、話者の位置を特定し、その位置に応じた話者自身を特定できるようにすることができる。

また、上述した第１、第２の実施の形態においては、音声信号の記録再生装置であるＩＣレコーダにこの発明を適用した場合を例にして説明したが、これに限るものではない。例えば、ハードディスクドライブやＭＤなどの光磁気ディスク、ＤＶＤなどの光ディスクなどの記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することができる。すなわち、種々の記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することが可能である。

［ソフトウエアによる実現］
また、上述した実施の形態のＩＣレコーダの音声特徴解析部１４３、音声信号処理部１３６などの各処理部の機能を実現するようにすると共に、各機能を有機的に結びつけるようにするプログラムを作成し、このプログラムをＣＰＵ１０１において実行するようにすることによっても、この発明を実現することができる。すなわち、図４、図５のフローチャートに示した処理を行うプログラムを作成し、これをＣＰＵ１０１で実行させることにより、この発明を実現することができる。

また、上述した実施の形態と同様に、例えば音声特徴解析部１４３の機能を実現したプログラムがインストールされたパーソナルコンピュータに、録音機で録音した音声データを取り込み、話者の切り換わりを検出させることも可能である。

この発明が適用されて構成された記録再生装置の一例を説明するためのブロック図である。図１に示した記録再生装置において、集音して録音する音声信号の変化点にマークを付すようにする処理の概要を説明するための図である。録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するＬＣＤ１３５の表示情報の変化を示す図である。図１に示した記録再生装置における録音処理を説明するためのフローチャートである。図１に示した記録再生装置における再生処理を説明するためのフローチャートである。図１に示した構成を有する記録再生装置の外部記憶装置１１１の記憶領域に形成される音声データベースの一例を説明するための図である。図１に示した構成を有する記録再生装置において行われる集音した音声信号にマークを付す処理の概要を説明するための図である。録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するＬＣＤ１３５の表示情報の変化を示す図である。録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を行う場合の処理を説明するためのフローチャートである。図１に示した記録再生装置からパーソナルコンピュータに転送されたデータに応じて、表示装置の表示画面への変化点情報の表示例を説明するための図である。図１に示した記録再生装置からパーソナルコンピュータに転送されたデータに応じて、表示装置の表示画面への変化点情報の表示例を説明するための図である。この発明が適用されて構成された記録再生装置の他の例を説明するためのブロック図である。マイクロホン１３１（１）、１３１（２）と、音声信号処理部１３６との一例を説明するための図である。マイクロホン１３１（１）、１３１（２）と、音声信号処理部１３６との他の例を説明するための図である。録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を行う場合の処理を説明するための図である。話者位置データベースの一例を説明するための図である。マイクロホンからの出力信号に応じて、発言者の位置を特定することにより、発言者自身を特定する方式の他の例を説明するための図である。この発明が適用されて構成された記録再生装置の他の例を説明するためのブロック図である。

符号の説明

１０１…ＣＰＵ、１０２…ＲＯＭ、１０３…ＲＡＭ、１０４…ＣＰＵバス、１１０…ファイル処理部、１１１…データ記憶装置、１２０…入力処理部、１２１…キー操作部、１３２…Ａ／Ｄコンバータ、１３１…マイクロホン、１３４…Ｄ／Ａコンバータ、１３３…スピーカ、１３５…ＬＣＤ、１４１…データ圧縮処理部、１４２…データ伸張処理部、１４３…音声特徴解析部、１４４…通信Ｉ／Ｆ、１４５…接続端子、１３１（１）、１３１（２）…マイクロホン、１３６…音声信号処理部

Claims

処理対象の音声信号に基づいて、当該音声信号の話者の変化を所定の処理単位毎に検出する検出手段と、
前記検出手段により話者が変化したと検出された前記音声信号上の位置を示す変化点情報を取得する取得手段と、
前記取得手段により取得された前記変化点情報を保持する保持手段と
を備えることを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置であって、
前記検出手段は、前記処理単位毎に前記音声信号の特徴を抽出し、抽出した前記音声信号の特徴に基づいて、話音声以外の部分から話音声部分への変化点、および、話音声部分の話者の変化点を検出することができるものであることを特徴とする音声信号処理装置。
請求項２に記載の音声信号処理装置であって、
１人以上の話者の話音声の特徴を示す特徴情報と前記話者の識別情報とを対応付けて記憶保持する記憶手段と、
前記検出手段により抽出された前記音声信号の前記特徴と、前記記憶手段に記憶保持されている前記特徴情報とを比較して、話者を特定する特定手段と
を備え、
前記保持手段は、前記変化点情報と、前記特定手段で特定された話者の前記識別情報とを関連付けて保持することを特徴とする音声信号処理装置。
請求項２に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号を解析して話者位置を検出する第２の検出手段を備え、
前記取得手段は、前記第２の検出手段により検出された話者位置の変化をも考慮して、前記変化点を特定し、特定した変化点に対応する前記変化点情報を取得することを特徴とする音声信号処理装置。
請求項３に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段と、
前記複数の音声チャンネルの音声信号を解析して得られる前記話者位置に応じた話者の前記識別情報を前記話者情報保持手段から取得する話者情報取得手段と
を備え、
前記特定手段は、前記話者情報取得手段により取得された話者の前記識別情報をも考慮して、前記話者を特定することを特徴とする音声信号処理装置。
請求項３または請求項５に記載の音声信号処理装置であって、
前記記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段を備えることを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置であって、
前記検出手段は、異なるマイクロホンにより集音される各音声チャンネルの音声信号を解析することにより得られる話者位置に基づいて、前記話者の変化を検出するものであることを特徴とする音声信号処理装置。
請求項７に記載の音声信号処理装置であって、
前記保持手段は、前記変化点情報と、前記検出手段により検出される話者位置を示す情報とを関連付けて保持することを特徴とする音声信号処理装置。
請求項７に記載の音声信号処理装置であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段と、
前記複数の音声チャンネルのそれぞれの音声信号を解析して得られる前記話者位置に応じた話者の前記識別情報を前記話者情報保持手段から取得する話者情報取得手段と
を備え、
前記保持手段は、前記変化点情報と、前記話者情報取得手段により取得された話者の前記識別情報とを関連付けて保持することを特徴とする音声信号処理装置。
請求項９に記載の音声信号処理装置であって、
前記話者情報記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段を備えることを特徴とする音声信号処理装置。
処理対象の音声信号に基づいて、当該音声信号の話者の変化を所定の処理単位毎に検出するする検出ステップと、
前記検出ステップにおいて、話者が変化したと検出した前記音声信号上の位置を示す変化点情報を取得する取得ステップと、
前記取得ステップにおいて取得した前記変化点情報を記録媒体に格納する格納ステップと
を有することを特徴とする音声信号処理方法。
請求項１１に記載の音声信号処理方法であって、
前記検出ステップにおいては、前記処理単位毎に前記音声信号の特徴を抽出し、抽出した前記音声信号の特徴に基づいて、話音声以外の部分から話音声部分への変化点、および、話音声部分の話者の変化点を検出することを特徴とする音声信号処理方法。
請求項１２に記載の音声信号処理方法であって、
前記検出ステップにおいて抽出された前記音声信号の前記特徴と、１人以上の話者の話音声の特徴を示す特徴情報と前記話者の識別情報とが対応付けられて記憶されている記録媒体の前記特徴情報とを比較して話者を特定する特定ステップを有し、
前記格納ステップにおいては、前記変化点情報と、前記特定ステップで特定した話者の前記識別情報とを関連付けて前記記録媒体に格納することを特徴とする音声信号処理方法。
請求項１２に記載の音声信号処理方法であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号を解析して話者位置を検出する第２の検出ステップを有し、
前記取得ステップにおいては、前記第２の検出ステップにおいて検出した話者位置の変化をも考慮して、前記変化点を特定し、特定した変化点に対応する前記変化点情報を取得することを特徴とする音声信号処理方法。
請求項１３に記載の音声信号処理方法であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて予め話者情報記憶手段に記憶保持する話者情報記憶ステップを設け、
前記複数の音声チャンネルの音声信号を解析して得られる話者位置に応じた話者の前記識別情報を前記話者情報記憶手段から取得する話者情報取得ステップを有し、
前記特定ステップにおいては、前記話者情報取得ステップにおいて取得した話者の前記識別情報をも考慮して、前記話者を特定することを特徴とする音声信号処理方法。
請求項１３または請求項１５に記載の音声信号処理方法であって、
前記記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理ステップを有することを特徴とする音声信号処理方法。
請求項１１に記載の音声信号処理方法であって、
前記検出ステップにおいては、異なるマイクロホンにより集音される各音声チャンネルの音声信号を解析することにより得られる話者位置に基づいて、前記変化点を検出することを特徴とする音声信号処理方法。
請求項１７に記載の音声信号処理方法であって、
前記格納ステップにおいては、前記変化点情報と、前記検出ステップにおいて検出される話者位置を示す情報とを関連付けて格納することを特徴とする音声信号処理方法。
請求項１７に記載の音声信号処理方法であって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて予め話者情報記憶手段に記憶保持する話者情報記憶ステップを設け、
前記複数の音声チャンネルの音声信号を解析して得られる話者位置に応じた話者の前記識別情報を前記話者情報記憶手段から取得する話者情報取得ステップを有し、
前記格納ステップにおいては、前記変化点情報と、前記話者情報取得ステップにおいて取得される話者の前記識別情報とを関連付けて格納することを特徴とする音声信号処理方法。
請求項１９に記載の音声信号処理方法であって、
前記話者情報記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理ステップを有することを特徴とする音声信号処理方法。
音声信号を処理する音声信号処理装置に搭載されたコンピュータを、
処理対象の音声信号に基づいて、当該音声信号の話者の変化を所定の処理単位毎に検出する検出手段、
前記検出手段において、話者が変化したと検出した前記音声信号上の位置を示す変化点情報を取得する取得手段、
前記取得手段において取得した前記変化点情報を記録媒体に格納する格納手段
として機能させるための音声信号処理プログラム。
請求項２１に記載の音声信号処理プログラムであって、
前記検出手段においては、前記処理単位毎に前記音声信号の特徴を抽出し、抽出した前記音声信号の特徴に基づいて、話音声以外の部分から話音声部分への変化点、および、話音声部分の話者の変化点を検出することを特徴とする音声信号処理プログラム。
請求項２２に記載の音声信号処理プログラムであって、
前記検出手段において抽出された前記音声信号の前記特徴と、１人以上の話者の話音声の特徴を示す特徴情報と前記話者の識別情報とが対応付けられて記憶されている記録媒体の前記特徴情報とを比較して話者を特定する特定手段として機能させると共に、
前記格納手段においては、前記変化点情報と、前記特定手段で特定した話者の前記識別情報とを関連付けて前記記録媒体に格納することを特徴とする音声信号処理プログラム。
請求項２２に記載の音声信号処理プログラムであって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号を解析して話者位置を検出する第２の検出手段として機能させると共に、
前記取得手段においては、前記第２の検出手段において検出した変化をも考慮して、前記変化点を特定し、特定した変化点に対応する前記変化点情報を取得することを特徴とする音声信号処理プログラム。
請求項２３に記載の音声信号処理プログラムであって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段を用いるようにし、
前記複数の音声チャンネルの音声信号を解析して得られる話者位置に応じた話者の前記識別情報を前記話者情報記憶手段から取得する話者情報取得手段として機能させると共に、
前記特定手段においては、前記話者情報取得手段において取得した話者の前記識別情報をも考慮して、前記話者を特定することを特徴とする音声信号処理プログラム。
請求項２３または請求項２５に記載の音声信号処理プログラムであって、
前記記録媒体には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段としての機能をも実効することを特徴とする音声信号処理プログラム。
請求項２１に記載の音声信号処理プログラムであって、
前記検出手段においては、異なるマイクロホンにより集音される各音声チャンネルの音声信号のそれぞれを解析して得られる話者位置に応じて、前記変化点を検出することを特徴とする音声信号処理プログラム。
請求項２７に記載の音声信号処理プログラムであって、
前記格納手段においては、前記変化点情報と、前記検出ステップにおいて検出される話者位置を示す情報とを関連付けて格納することを特徴とする音声信号処理プログラム。
請求項２７に記載の音声信号処理プログラムであって、
複数のマイクロホンのそれぞれに対応する複数の音声チャンネルの音声信号に応じて決められる話者位置と、前記話者位置の話者の識別情報とを対応付けて記憶保持する話者情報記憶手段を用いるようにし、
前記複数の音声チャンネルの音声信号を解析して得られる前記話者位置に応じた話者の前記識別情報を前記話者情報記憶手段から取得する話者情報取得手段として機能させると共に、
前記格納手段においては、前記変化点情報と、前記話者情報取得手段において取得される話者の前記識別情報とを関連付けて格納することを特徴とする音声信号処理プログラム。
請求項２９に記載の音声信号処理プログラムであって、
前記話者情報記憶手段には、各識別情報に対応する話者に関連する情報が各識別情報に対応付けられて記憶されており、
前記音声信号に対する変化点の位置と前記話者に関連する情報とを表示する表示情報処理手段としての機能をも実行することを特徴とする音声信号処理プログラム。