JP5811642B2

JP5811642B2 - 音声記録サーバ装置及び音声記録システム

Info

Publication number: JP5811642B2
Application number: JP2011149370A
Authority: JP
Inventors: 竹原　伸彦; 伸彦竹原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2015-11-11
Anticipated expiration: 2031-07-05
Also published as: JP2013015726A

Description

本発明は、音声記録サーバ装置及び音声記録システムに関する。

例えば医師と患者の会話、保険の契約時の説明など、後に確認が求められ得る会話を音声データとして記録し、記録した音声データをサーバに保存してユーザによる共用を可能とする音声記録システムが知られている（特許文献１、特許文献２）。このような音声記録システムでは、目的の音声以外の不要な音（例えば、銀行のカウンターにおいて説明員と顧客の間でなされる会話を記録する場合、隣のカウンターで別の説明員と顧客の間でなされる会話など）が記録されないようにすることが望ましい。

特許文献３には、目的音源の近くに雑音源がある場合に、雑音信号を抑制し、目的音を高いＳＮ比で取り出す近接音分離収音装置が記載されている。特許文献３には、目的音信号と雑音信号とが混合された信号を複数の帯域信号に分割し、分割された各帯域信号の特徴量を求め、或る帯域信号の特徴量が目的音を表わす値である場合その帯域信号を目的音として判定し、特徴量が雑音を表わす値である場合、その帯域信号を雑音と判定し、その判定結果に従って各帯域信号に重み付けを施し、この重み付けにより雑音成分を除去することが記載されている（特許文献３、要約書）。

特開２０００−１７３１８５号公報特開２００２−２３０２０３号公報特開２００６−１７８３３３号公報

特許文献３に記載の近接音分離収音装置では、目的音源が雑音源に比べてマイクロフォンに近接しているという条件が満たされる場合に、雑音信号の抑制を図ることが意図されている（特許文献３、段落０００６）。しかしながら、雑音源と目的音源が等距離にある場合や雑音源の音量が目的音源の音量より大きい場合など、マイクロフォンに到達する雑音の音量が目的音の音量と同程度の場合、特許文献３に記載の近接音分離収音装置では、目的音信号を劣化させることなく雑音信号のみを抑制するのが困難である。

また、記録された音声からユーザが関心のある情報を、効率的に提供することが望まれている。

本発明は、上述した背景の下になされたものであり、会話などの音声を記録する音声記録サーバ装置において、目的の音声の劣化を抑えつつ不要な音を除去または低減して記録するとともに、ユーザが所望する情報を効率よく提供することを可能とする技術を提供することを目的とする。

上述した課題を解決するため、本発明は、話者から発せられた音声を収音し、収音した音声を表す第１音信号を生成する第１音信号生成装置と、前記第１音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第１音信号生成装置によって収音される前記話者の音声以外の音声を表す第２音信号を生成する第２音信号生成装置と通信可能な音声記録サーバ装置であって、前記第１音信号生成装置から前記第１音信号を受信し前記第２音信号生成装置から前記第２音信号を受信する受信手段と、前記第１音信号を前記第２音信号に基づいて加工し、前記第１音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第１音信号を生成する音信号加工手段と、前記加工済み第１音信号を複数の音声ブロックに分割する音信号分割手段と、複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、前記音信号分割手段によって分割された前記加工済み第１音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、前記再構成された音信号を記憶手段に格納する書き込み手段とを有することを特徴とする音声記録サーバ装置を提供する。

好ましい態様において、前記書き込み手段は、前記再構成された音信号を、当該再構成された音信号にアクセス可能なユーザと関連付けて前記記憶手段に格納してもよい。

他の好ましい態様において、前記各ユーザに対して登録されたキーワードの各々に対して重要度が割り当てられており、前記結合手段は、前記抽出手段によって抽出された各音声ブロックの重要度を、各音声ブロックに含まれる前記キーワードに割り当てられた重要度に基づいて決定し、決定した重要度に基づいて、前記音声ブロックを並べ変えて結合してもよい。

他の好ましい態様において、前記書き込み手段は、前記音信号加工手段により生成された前記加工済み第１音信号を前記記憶手段に格納し、当該音声記録サーバ装置は、複数の前記加工済み第１音信号が前記記憶手段に記憶されている場合、前記複数の加工済み第１音信号から２以上の第１音信号の各々を特定する音信号特定情報を取得する音信号特定手段を更に有し、前記音信号分割手段は、前記音信号特定手段によって取得された音信号特定情報により特定される２以上の前記加工済み第１音信号の各々を複数の音声ブロックに分割し、前記抽出手段は、前記２以上の前記加工済み第１音信号の各々を分割して得られた音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出してもよい。

他の好ましい態様において、ユーザにより設定されるパラメータに応じて、前記結合手段によって結合される前記音声ブロックが変化してもよい。

他の好ましい態様において、本発明は、話者の音声を収音し、収音した音声を表す第１音信号を生成する第１音信号生成装置と、前記第１音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第１音信号生成装置によって収音される前記話者の音声以外の音を表す第２音信号を生成する第２音信号生成装置と、ユーザ端末、前記第１音信号生成装置、及び前記第２音信号生成装置と通信可能なサーバ装置とを有し、前記サーバ装置は、前記第１音信号を前記第２音信号に基づいて加工し、前記第１音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第１音信号を生成する音信号加工手段と、前記加工済み第１音信号を複数の音声ブロックに分割する音信号分割手段と、複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、前記音信号分割手段によって分割された前記加工済み第１音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、前記再構成された音信号を記憶手段に格納する書き込み手段と、前記ユーザ端末からの要求に応じて、前記再構成された音信号を前記記憶手段から読み出す読み出し手段と、前記読み出し手段によって読み出された前記再構成された音信号を前記ユーザ端末に送信する送信手段とを有することを特徴とする音声記録システムを提供する。

本発明によれば、会話などの音声を記録する音声記録サーバ装置において、目的の音声の劣化を抑えつつ不要な音を除去または低減して記録するとともに、ユーザが所望する情報を効率よく提供することができる。

本発明の一実施形態に係る音声記録システムの全体構成を示すブロック図。本発明の一実施形態に係る収音装置の構成を示すブロック図。本発明の一実施形態に係るサーバの構成を示すブロック図。ユーザ情報管理テーブルの一例を示す図。音声ファイル管理テーブルの一例を示す図。本発明の一実施形態に係るユーザ端末の構成を示すブロック図。本発明の一実施形態に係るシステムの動作を示すシーケンス図。本発明の一実施形態に係るシステムの動作を示すシーケンス図。メニュー画面の一例を示す図。本発明の変形例１に係る音声記録システムにおけるサーバの構成を示すブロック図。本発明の変形例１に係る音声記録システムの動作を示すシーケンス図。本発明の変形例２に係る音声記録システムの全体構成を示すブロック図。本発明の変形例２に係る音声記録システムの動作を示すシーケンス図。本発明の変形例９に係るサーバの構成を示すブロック図。キーワードデータベースの一例を示す模式図。再構成部の構成を示すブロック図。変形例９に係るメニュー画面の一例を示す図。変形例９に係るサーバの音声ファイル再構成に関する動作を示すフローチャート。変形例１０に係るサーバ及びユーザ端末の動作を示すシーケンス図。

［実施形態］
図１は、本発明の一実施形態に係る音声記録システムの全体構成を示すブロック図である。図１に示す音声記録システム１は、第１収音装置１０ａと、第２収音装置１０ｂと、サーバ２０と、ユーザ端末３０とを有し、これら第１収音装置１０ａ、第２収音装置１０ｂ、サーバ２０、及びユーザ端末３０は、ＬＡＮ、インターネット、移動体通信網あるいはそれらの組み合わせなどからなる通信回線１００に接続され、互いに通信可能となっている。音声記録システム１は、病院等の医療機関における医師と患者の会話、薬局における薬剤師と顧客の会話、銀行や保険会社における説明員と顧客の会話など、会話の内容を会話の当事者またはその関係者が後で確認することが望まれる様々な会話の記録に用いることができる。以下の説明では、音声記録システム１を医療機関でなされるカウンセリングにおける医師と患者（相談者）の会話の記録に用いる場合を例として説明する。

第１収音装置１０ａ及び第２収音装置１０ｂは、例えばカーテンや壁で仕切られた隣接した空間（空間Ａ、空間Ｂ）に設置され、各空間においてなされる医師と患者の会話を収音して音信号を生成する。第１収音装置１０ａと第２収音装置１０ｂは同一の構成とすることができるので、第１収音装置１０ａと第２収音装置１０ｂを互いに区別する必要がない場合は、符号に添えられたアルファベットを省略して、「収音装置１０」という。収音装置１０は、本発明の音信号生成装置の一例である。

図２は、収音装置１０の構成の一例を示すブロック図である。本実施形態において、収音装置１０は、制御部１１と、記憶部１２と、通信部１３と、表示部１４と、操作部１５と、マイクロフォン１６とを備えている。収音装置１０は、例えば、マイクロフォン付きのパーソナルコンピュータや携帯電話等の移動端末であってよい。

制御部１１は、ＣＰＵ（Central Processing Unit）と、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）とを備えており（図示せず）、ＣＰＵがＲＯＭや記憶部１２に記憶されている制御プログラムを実行することによって収音装置１０の各部を制御する。記憶部１２は、例えばＨＤＤ（Hard Disk Drive）やフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。通信部１３は、通信回線１００を介して外部装置と通信するためのインタフェースである。表示部１４は、例えば液晶表示装置であり、制御部１１の制御の下、文字や画像などを表示する。操作部１５は、表示部１４の表示面に重ねて配置される透明のタッチパネルや複数の操作キーを備え、タッチパネルや操作キーを介して入力されるユーザからの指示を受け付ける。マイクロフォン１６は、外部からの音を電気信号（音信号）に変換する。尚、マイクロフォン１６が生成した電気信号を制御部１１がＡ／Ｄ変換して得られるデジタル信号を音信号ということもある。制御部１１は、後に詳述するように、音信号を加工する信号加工部１７としても機能する。尚、以下の説明において、各構成要素が第１収音装置１０ａのものであることを示すときは符号の末尾に「ａ」を付し、第２収音装置１０ｂのものであることを示すときは符号の末尾に「ｂ」を付すこととする。

図３は、サーバ２０の構成の一例を示すブロック図である。サーバ２０は、本発明の音声記録サーバ装置の一例である。本実施形態において、サーバ２０は、制御部２１と、記憶部２２と、通信部２３とを備えている。

制御部２１は、ＣＰＵと、ＲＯＭと、ＲＡＭとを備えており（図示せず）、ＣＰＵがＲＯＭや記憶部２２に記憶されている制御プログラムを実行することによってサーバ２０の各部を制御する。記憶部２２は、例えばＨＤＤやフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。後に詳述するように、記憶部２２に格納されるデータには、医師と患者の会話を示す音声データ（音声ファイル）が含まれる。通信部２３は、通信回線１００を介して外部装置と通信するためのインタフェースである。

図３に示すように、記憶部２２には、ユーザ情報管理テーブル２５と音声ファイル管理テーブル２６とが格納されている。ユーザ情報管理テーブル２５の一例を図４に、音声ファイル管理テーブル２６の一例を図５に示す。

図４に示すように、ユーザ情報管理テーブル２５には、ユーザを識別するための識別情報の一例としてのユーザＩＤと、ユーザの氏名と、ユーザがサーバ２０にアクセスする際の認証に用いられるパスワードとが関連付けて格納されている。ここでユーザには患者が含まれるが、ユーザは患者のみに限られず、音声ファイルにアクセス可能とすることが望まれる患者以外のユーザ（例えば、医師、患者の家族等）を含み得る。図３に示すように、制御部２１は、ユーザがサーバ２０にアクセスしようとする際、ユーザ情報管理テーブル２５に格納されたデータに基づいてユーザの認証を行う認証部２４として機能する。

図５に示すように、音声ファイル管理テーブル２６には、各音声ファイルのファイル名と、音声ファイルにアクセス可能な１または複数のユーザのユーザＩＤと、音声ファイルが作成された日付けと、カウンセリングを行った担当医師と、カウンセリングを受けた患者のユーザＩＤと、カウンセリング内容を示す情報（例えばカウンセリングのテーマとなった病名、処方された薬、患者の症状、患者の性別、患者の年齢、患者の肥満度等）と、音声ファイルの格納場所を示す情報（例えば、ＵＲＬ（Uniform Resource Locator））とが、関連付けて格納されている。即ち、音声ファイル管理テーブル２６は、音声ファイルを、ユーザ（患者、患者の家族など）、日付け、担当医師等の付属情報と関連付けるものである。図５の例では、一つの音声ファイルに対して、Ｎ人までのユーザのユーザＩＤを関連付けることができる。例えばある音声ファイルに記録された会話の当事者である医師と患者以外はその音声ファイルにアクセスできないようにする場合、その音声ファイルに対し、ユーザＩＤ（１）とユーザＩＤ（２）のフィールドに医師と患者のユーザＩＤを設定し、ユーザＩＤ（３）〜ユーザＩＤ（Ｎ）のフィールドは空欄とすればよい。患者の家族も音声ファイルにアクセス可能とするには、患者の家族のユーザＩＤをユーザＩＤ（３）〜ユーザＩＤ（Ｎ）のフィールドのいずれかに設定する。カウンセリング内容を示す情報は、音声ファイルに記録された音声の内容を示す情報の一例であり、予め定められた項目について所定のフォーマットで記述したものでもよいし、文章として記述されたものでもよい。

図６は、ユーザ端末３０の構成の一例を示すブロック図である。本実施形態において、ユーザ端末３０は、制御部３１と、記憶部３２と、通信部３３と、表示部３４と、操作部３５と、放音部３６とを備えている。ユーザ端末１０は、例えば、放音機能を備えたパーソナルコンピュータや携帯電話等の移動端末であってよい。

制御部３１は、ＣＰＵと、ＲＯＭと、ＲＡＭとを備えており（図示せず）、ＣＰＵがＲＯＭや記憶部３２に記憶されている制御プログラムを実行することによってユーザ端末３０の各部を制御する。記憶部３２は、例えばＨＤＤやフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。通信部３３は、通信回線１００を介して外部装置と通信するためのインタフェースである。表示部３４は、例えば液晶表示装置であり、制御部３１の制御の下、文字や画像などを表示する。操作部３５は、表示部３４の表示面に重ねて配置される透明のタッチパネルや複数の操作キーを備え、タッチパネルや操作キーを介して入力されるユーザからの指示を受け付ける。放音部３６は、スピーカやイヤフォンなどであり、制御部３１から供給される音信号を音に変換して出力する。

次に、図７及び図８に示すシーケンス図を参照しながら、音声記録システム１の動作例について説明する。以下の説明では、第１収音装置１０ａにおいて医師と患者の会話を収音し、収音した会話を記録した音声ファイルをサーバ２０の記憶部２２に格納するものとする。尚、音声ファイルの形式は、WMA、MP3、AACなど任意である。

図７において、患者に対してカウンセリングを行う医師は、録音開始前に、操作部１５ａを用いて患者のユーザＩＤを入力する（ステップＳ１）。このとき、医師の名前、カウンセリング内容を示す情報、患者以外に音声ファイルにアクセス可能とすべきユーザ（例えば、患者の家族）のユーザＩＤ等の付属情報を合わせて入力してもよい。尚、これらの情報は、音声ファイルが生成された後に入力または変更してもよい。

ステップＳ１でカウンセリングを受ける患者のユーザＩＤ等が入力された後、操作部１５ａを通じて医師による録音開始の操作を受け付けると（ステップＳ２）、第１収音装置１０ａは第２収音装置１０ｂに対し録音開始の指示があったことを通知するとともに（ステップＳ３）、空間Ａにおいてなされる医師と患者の会話のマイクロフォン１６ａによる収音を開始する（ステップＳ４）。また、第２収音装置１０ｂは、第１収音装置１０ａからの録音開始の通知を受信すると、空間Ａに隣接した空間Ｂにおいて生成される音のマイクロフォン１６ｂによる収音を開始する（ステップＳ５）。ここで、空間Ｂにおいて生成される音には、例えば、空間Ｂにおいて別の医師と患者の間でなされる会話や、空間Ｂ内に設置されたテレビなどの機器から発せられる音声など、空間Ａ内の医師及び患者の音声以外の音が含まれる。また、本実施形態の説明では、空間Ｂで生成された音の一部は空間Ａへ漏れて、第１収音装置１０ａによって収音されることを想定している。尚、ステップＳ３において第１収音装置１０ａから録音開始の通知を受信した時点で、既に第２収音装置１ｂにおいて収音が実行中の場合は（例えば、空間Ｂでなされる医師と患者の会話を録音するべく当該医師によって第２収音装置１０ｂによる収音が開始された場合）、ステップＳ５の収音開始は省略される。要は、第１収音装置１０ａによる収音がなされる間に同時に第２収音装置１０ｂによる収音がなされればよい。尚、空間Ａにおいてなされる医師と患者の会話は、話者から発せられる音声の一例であり、空間Ａに隣接した空間Ｂにおいて生成される音は、第１音信号生成装置による話者の音声の収音期間に生成されその一部が第１音信号生成装置によって収音される話者の音声以外の音の一例である。

収音を開始すると、第１収音装置１０ａはマイクロフォン１６ａで収音した音を表す第１音信号を生成する（ステップＳ６）。第１音信号には、空間Ａ内の医師及び患者の会話音声を表す信号成分に加えて、空間Ｂ内で生成された音に起因する信号成分が含まれる。一方、第２収音装置１０ｂはマクロフォン１６ｂで収音した音を表す第２音信号を生成し（ステップＳ７）、生成した第２音信号を第１収音装置１０ａに送信する（ステップＳ８）。

第１収音装置１０ａでは、制御部１１の信号加工部１７によって、第２収音装置１０ｂから受信した第２音信号を用いて第１音信号を加工し、第１音信号に含まれる空間Ａ内の医師及び患者の音声以外の音（この例では、空間Ｂ内で生じた音）に起因する音信号成分を除去または低減する（ステップＳ９）。これは、例えば、第２収音装置１０ｂから受信した第２音信号をｋ倍（０＜ｋ＜１）し、位相を反転した後、第１音信号に加えることによりなされる。ｋの値は、第１収音装置１０ａと第２収音装置１０ｂのそれぞれの位置、空間Ｂ内の音源の位置、マイクロフォン１６ａ、１６ｂの音響特性（指向性や周波数特性など）、空間Ａと空間Ｂの間の仕切りの遮音特性などに応じて決定される。また、マイクロフォン１６ａと空間Ｂ内の音源との間の距離がマイクロフォン１６ｂと空間Ｂ内の音源との間の距離より大きく、その差が無視できない場合は、第２音信号をｋ倍して反転した後、当該距離の差に応じて決定される遅延時間ｔだけ遅らせて第１音信号に加えてもよい。更に、マイクロフォン１６ａ、１６ｂの音響特性や仕切りの遮音特性等に応じて、第２音信号の周波数特性を補正する処理（例えば、高音を強めるまたは弱めるなど）を加えてもよい。

ステップＳ１０で、操作部１５ａを通じて録音終了の操作を受け付けると、第１収音装置１０ａは第２収音装置１０ｂに対し録音終了の指示があったことを通知するとともに（ステップＳ１１）、マイクロフォン１６ａによる収音を終了する（ステップＳ１２）。また、第２収音装置１０ｂは、第１収音装置１０ａから録音終了の通知を受信すると、マイクロフォン１６ｂによる収音を終了する（ステップＳ１３）。ただし、第２収音装置１０ｂによる収音が、ステップＳ３における第１収音装置１０ａからの録音開始の通知に応じて始められたものでない場合は、収音を終了することなく続行してもよい。

収音を終了すると、第１収音装置１０ａは加工した第１音信号を音声ファイルとして記憶部１２ａまたは制御部１１ａのＲＡＭに格納するとともに（ステップＳ１４）、当該音声ファイルをステップＳ１で入力されたユーザＩＤ等の付属情報とともにサーバ２０に送信する（ステップＳ１５）。

サーバ２０は、音声ファイル及びユーザＩＤ等の付属情報を受信すると（ステップＳ１６）、受信した情報を記憶部２２に格納する。このとき、音声ファイルのファイル名と、ユーザＩＤ等の付属情報は、関連付けられて図５に示した音声ファイル管理テーブル２６に格納される（ステップＳ１７）。

図８において、操作部３５を通じてユーザ（例えば、患者）によるサーバ２０へのアクセス要求の操作を受け付けると（ステップＳ２１）、ユーザ端末３０はサーバ２０に対しアクセス要求を送信する（ステップＳ２２）。サーバ２０へのアクセス要求の操作は、例えば、ユーザ端末３０上でブラウザソフトを起動し、ブラウザ画面のＵＲＬ入力欄にサーバ２０のＵＲＬを入力することによってなされる。ユーザ端末３０がカメラ機能付き携帯電話の場合、患者へ渡す薬を入れた袋などにサーバ２０のＵＲＬを示すＱＲコードを印刷しておき、このＱＲコードをユーザ端末３０のカメラ機能を用いてユーザ端末３０に読み取らせることで、ユーザ端末３０から自動的にサーバ２０へのアクセス要求が送信されるようにしてもよい。

アクセス要求を受信したサーバ２０は、記憶部２２から認証画面データを読み出し（ステップＳ２３）、認証画面データをユーザ端末３０に送信する（ステップＳ２４）。ここで、認証画面データとは、ユーザがサーバ２０にアクセスする権限を有するかどうかの判定（認証）を行うための情報として、ユーザＩＤとパスワードの入力を促す画面である。

ユーザ端末３０は、認証画面データを受信すると、当該データに基づいて認証画面を表示部３４に表示する。ユーザによる操作部３５を用いたユーザＩＤ及びパスワードの入力を受け付けると（ステップＳ２５）、ユーザ端末３０は受け付けたユーザＩＤ及びパスワードをサーバ２０に送信する（ステップＳ２６）。

サーバ２０の認証部２４は、ユーザ端末３０から受信したユーザＩＤ及びパスワードをユーザ情報管理テーブル２５に格納されたユーザＩＤ及びパスワードと照合することで、ユーザがサーバ２０へのアクセス権限を有する正規のユーザであるか判定する（ステップＳ２７）。ステップＳ２７でユーザにアクセス権限があると判定された場合（この状態をユーザがサーバにログインした状態ともいう）、サーバ２０は、記憶部２２に格納された音声ファイル管理テーブル２６から認証されたユーザがアクセス可能な音声ファイルに関する情報を抽出して、抽出した情報を用いて当該ユーザに対応したメニュー画面データを作成し（ステップＳ２８）、作成したメニュー画面データをユーザ端末３０に送信する（ステップＳ２９）。メニュー画面データを受信したユーザ端末３０は、当該データに基づくメニュー画面を表示部３４に表示する。

図９に、ユーザ端末３０に表示されるメニュー画面の一例を示す。図９の例は、ユーザＩＤが０００００１のユーザに対するメニュー画面を示している。ユーザがメニュー画面に表示された日付け、担当医師、カウンセリング内容のいずれかの表示欄にタッチし（選択操作）、続いてメニュー画面内の「再生」ソフトボタンをタッチすると、ユーザ端末３０はその選択操作を受け付け（ステップＳ３０）、選択操作の内容を表す情報をサーバ２０に送信する（ステップＳ３１）。ユーザによる選択操作の受け付けは、例えば、ユーザがメニュー画面内の日付け、担当医師、またはカウンセリング内容の表示欄にタッチするのを操作部３５のタッチパネルで検知することでなされる。また、選択操作の内容を表す情報（選択操作情報）としては、例えば、ユーザがタッチした位置を示す座標を用いることができる。

サーバ２０は、ユーザ端末３０から受信した選択操作情報に基づき、メニュー画面の中でユーザが選択した項目を特定し（例えば、日付け「２０１０年９月８日」）、更に、特定された項目に対応する音声ファイルを、図５に示した音声ファイル管理テーブル２６を参照することで特定して、特定した音声ファイルを記憶部２２から読み出す（ステップＳ３２）。読み出された音声ファイルは、ユーザ端末３０に送信され（ステップＳ３３）、ユーザ端末３０は受信した音声ファイルに記録された音信号を放音部３６で音に変換することで会話音声を再生する（ステップＳ３４）。

上述したように、本実施形態では、第１収音装置１０ａは、空間Ａにおける医師と患者の会話音声を収音して当該音声を表す第１音信号を生成するとともに、空間Ａに隣接した空間Ｂにおいて生成される、空間Ａにおける医師と患者の会話音声以外の音を表す音信号（第２音信号）を第２収音装置１０ｂから受信して、第１音信号に含まれる空間Ａ内の医師と患者の会話音声以外の音に起因する音信号成分が除去または低減されるように、第１音信号を第２音信号に基づいて加工し、加工された第１音信号をサーバ２０に送信してサーバ２０の記憶部２２に格納するので、目的の音声を損なうことなく不要な音（空間Ｂにおいて生成された音）を除去または低減して記録することができる。従って、目的の音声をクリアに再生することができるとともに、隣接する空間（空間Ｂ）でなされた他人のカウンセリングの内容が記録されるのを防止できる。

［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。また、以下の変形例を組み合わせてもよい。

（変形例１）
上述した実施形態においては、第１収音装置１０ａが信号加工部１７ａを有し、当該第１収音装置１０ａが収音した空間Ａにおける医師と患者の会話音声を表す第１音信号を、空間Ａに隣接した空間Ｂにおいて生成された音を表す第２収音装置１０ｂからの第２音信号に基づき加工し、第１音信号に含まれる不用な音信号成分（空間Ｂにおいて生成された音に起因する音信号成分）が除去または低減された加工済み第１音信号を生成し、サーバ２０に送信した。しかしながら、本発明はこれに限定されず、第２音信号に基づく第１音信号の加工をサーバ２０で行って、第１音信号に含まれる不用な音信号成分を除去または低減してもよい。

図１０は、変形例１に係る音声記録システム１のサーバ２０の構成を示すブロック図である。図１０において、図３と共通する部分には同じ符号を付して詳しい説明を省略する。図１０に示したサーバ２０では、制御部２１が信号加工部２７を備え、記憶部２２には収音装置情報２８が格納される。信号加工部２７は、第１収音装置１０ａが収音した音を表す第１音信号（第１音声ファイル）を、第２収音装置１０ｂが収音した音を表す第２音信号（第２音声ファイル）に基づいて加工する。収音装置情報２８は、第１収音装置１０ａ及び第２収音装置１０ｂの各々の位置、マイクロフォン１６ａ、１６ｂの音響特性など、第２音信号に基づく第１音信号の加工に必要な情報を格納する。尚、変形例１においては、収音装置１０ａ及び１０ｂは信号加工部１７を有さなくてよい。

図１１は、変形例１に係る音声記録システム１の動作を示すシーケンス図である。図１１において、図７と共通する部分には同じ符号を付して詳しい説明を省略する。図７において、ステップＳ１〜Ｓ１３は、図３のステップＳ１〜Ｓ１３と概ね同じであるが、図７のシーケンス図では、ステップＳ８（第２収音装置１０ｂから第１収音装置１０ａへの第２音信号の送信）及びステップＳ９（第１収音装置１０ａにおける第２音信号に基づく第１音信号の加工）が含まれない点が異なる。

図１１のシーケンス図において、ステップＳ１２で収音を終了した後、第１収音装置１０ａは、収音した音を表す第１音信号を第１音声ファイルとして記憶部１２ａまたは制御部１１ａのＲＡＭに格納するとともに（ステップＳ４１）、第１音声ファイルをサーバ２０に送信する（ステップＳ４３）。このとき、第１収音装置１０ａは、患者のユーザＩＤなどの録音開始前に医師が入力した付属情報に加えて、マイクロフォン１６ａの位置情報、マイクロフォン１６ａの音響特性などの音信号加工に必要な情報を第１音声ファイルと共にサーバ２０に送信する。尚、マイクロフォン１６ａは空間Ａ内に固定されていてもよく、あるいは、例えば第１収音装置１０ａが携帯電話などの移動端末からなる場合、マイクロフォン１６ａは第１収音装置１０ａに一体に設けられ、第１収音装置１０ａと共に移動可能なものであってもよい。その場合、マイクロフォン１６ａの位置は、第１収音装置１０ａが備える、例えばＧＰＳ（Global Positioning System）を用いた位置情報取得機能によって取得するとよい。

また、第２収音装置１０ｂは、ステップＳ１３で収音を終了した後、収音した音を表す第２音信号を第２音声ファイルとして記憶部１２ｂまたは制御部１１ｂのＲＡＭに格納するとともに（ステップＳ４２）、第２音声ファイルをサーバ２０に送信する（ステップＳ４４）。このとき、第２収音装置１０ｂは、マイクロフォン１６ｂの位置情報、マイクロフォン１６ｂの音響特性などの音信号加工に必要な情報を第２音声ファイルと共にサーバ２０に送信する。

サーバ２０が第１音声ファイル、第２音声ファイル、ユーザＩＤ、マイクロフォン１６ａ、１６ｂの位置情報等を受信した後（ステップＳ４５）、サーバ２０の信号加工部２７は、第２音声ファイルを用いて第１音声ファイルを加工する（ステップＳ４６）。具体的には、第１音声ファイルに記録された第１音信号を、第２音声ファイルに記録された第２音信号に基づいて加工し、第１音信号に含まれる目的の医師と患者の会話音声以外の音に起因する音信号成分を除去または低減する。この第１音信号の加工処理は、第１収音装置１０ａにおける録音終了後に音声ファイルとして送信されてきた第１音信号に対して処理を行うという点以外は、図７のステップＳ９において第１収音装置１０ａで行う第１音信号に対する加工処理と同じである。

ステップＳ４７で、サーバ２０は、加工済み第１音声ファイル（即ち、加工済み第１音信号を含む音声ファイル）をユーザＩＤ等の付属情報とともに記憶部２２に格納する。

尚、第１収音装置１０ａ及び第２収音装置１０ｂからサーバ２０への音信号の送信は録音終了後に音声ファイルを送信する方式に限らず、録音中にリアルタイムで第１収音装置１０ａ及び第２収音装置１０ｂから音信号をサーバ２０へ送信してもよい。その場合、サーバ２０による第１音信号の加工は、音信号の受信と同時にリアルタイムで行ってもよいし、或いは、録音終了後に行ってもよい。サーバ２０において第１音信号の加工を、音信号の受信と同時にリアルタイムで行う場合、第１音信号の加工に必要な情報（マイクロフォン１６ａ、１６ｂの位置情報、マイクロフォン１６ａ、１６ｂの音響特性など）は、加工処理の開始に先立って（例えば、第１収音装置１０ａによる録音開始操作の受け付け（ステップＳ２）と収音開始（ステップＳ４、Ｓ５）の間）、第１収音装置１０ａ及び第２収音装置１０ｂからサーバ２０に送信される。

（変形例２）
上述した実施形態においては、第１収音装置１０ａが収音した空間Ａ内の医師と患者の会話音声を表す第１音信号を、空間Ａに隣接した空間Ｂにおいて生成された音を表す第２収音装置１０ｂからの第２音信号に基づき加工し、第１音信号に含まれる空間Ｂ内で生じた音に起因する音信号成分を除去または低減した。しかしながら、本発明において、除去または低減される不要な音は、隣接した空間Ｂにおいて生成される音に限られない。

図１２は、変形例２に係る音声記録システム１の構成を示すブロック図である。図１２において、図１と共通する部分には同じ符号を付して詳しい説明を省略する。図１２の音声記録システム１は、マスキング効果を利用して医師と患者の会話を第三者に聞こえにくくするマスカ音を生成するマスカ音生成装置４０を有する。マスキング効果とは、ある音（対象音）が聞こえているときに対象音に近い音響特性（周波数特性など）を持つ別の音（マスカ音）が存在すると、その対象音が聞こえにくくなるという現象である。マスカ音生成装置４０は、例えば、空間Ａ内の医師と患者の会話音声を取得し、取得した音声を所定のフレームに分割し、各フレーム内で時間的に逆に再生することにより音声を無意味化しマスカ音を生成する。あるいは、音響特性の異なる複数のスクランブル音信号（言語としての意味が判別できないよう処理された音信号）を用意しておき、取得した会話音声の音響特性に類似した音響特性を有するスクランブル音信号をマスカ音として出力してもよい。マスカ音生成装置４０におけるマスカ音の生成方法は任意である。このように、マスカ音生成装置４０からマスカ音を生成する場合、生成されたマスカ音が回り込んで第１収音装置１０ａのマイクロフォン１６ａによって収音され、目的の音声である医師と患者の会話音声が聞き取りにくくなる場合がある。

図１２の音声記録システム１では、マスカ音生成装置４０は通信回線１００に接続されており、通信回線１００を介して第１収音装置１０ａ及びサーバ２０と通信可能となっている。

図１３は、変形例２に係る音声記録システムの動作を示すシーケンス図である。図１３において、図７と共通する部分には同じ符号を付して詳しい説明を省略する。図１３のシーケンス図において、ステップＳ３で第１収音装置１０ａから録音開始の通知を受信すると、マスカ音生成装置４０は、空間Ａ内の医師と患者の会話が外部の第三者に聞き取られにくくなるように、マスカ音の生成を開始する（ステップＳ５１）。マスカ音生成時、マスカ音生成装置４０は出力されるマスカ音を表すマスカ音信号を生成し（ステップＳ５２）、このマスカ音信号を第１収音装置１０ａに送信する（ステップＳ５３）。マスカ音信号は、マスカ音の特性及びマスカ音の生成期間等を示す。

第１収音装置１０ａは、マスカ音生成装置４０から受信したマスカ音信号を用いてマイクロフォン１６ａで収音した音を表す第１音信号を加工し、第１音信号に混入したマスカ音に起因する音信号を除去または低減する（ステップＳ５４）。即ち、この変形例では、マスカ音生成装置４０からのマスカ音信号が、第１収音装置１０ａが収音すべき目的の音声以外の音を表す第２音信号に対応する。

ステップＳ１０で、操作部１５ａを通じて録音終了の操作を受け付けると、第１収音装置１０ａはマスカ音生成装置４０に対し録音終了の指示があったことを通知する（ステップＳ１１）。第１収音装置１０ａから録音終了の通知を受信したマスカ音生成装置４０は、マスカ音の生成を終了する（ステップＳ５５）。

尚、変形例２において、マスカ音生成装置４０を、マスカ音以外の音（例えば、ＢＧＭなど）を生成するとともに、生成される音を表す音声信号を第１収音装置１０ａに対して送信可能な別の放音装置に置き換えてもよい。この場合も、第１収音装置１０ａは、別の放音装置から受信した音声信号を用いてマイクロフォン１６ａで収音した音を表す第１音信号を加工し、第１音信号に混入した別の放音装置から生成された音に起因する音信号を除去または低減することができる。また、マスカ音生成装置４０からマスカ音信号を第１収音装置１０ａではなくサーバ２０に送信し、サーバ２０において、マスカ音信号を用いた第１音信号の加工を行ってもよい。

（変形例３）
図１において点線で示すように、音声記録システム１は、サーバ２０に接続された別のサーバ５０を有してもよい。サーバ５０は、ユーザＩＤに関連づけて患者の電子カルテ、通院履歴等のユーザ情報を格納したサーバである。

本変形例に基づく音声記録システム１において、サーバ２０は、ユーザからのアクセス要求に応じてユーザ認証を行った後、正規のユーザと判定された場合、そのユーザのユーザＩＤを用いてサーバ５０にアクセスし、電子カルテや通院履歴などの当該ユーザに関連するデータを読み出して、図９に示したユーザのメニュー画面に表示する。これにより、ユーザは音声ファイルにアクセスする際に関連するユーザ情報を併せて確認できるため、ユーザの利便性が高まる。尚、サーバ５０は、通信回線１００を介してサーバ２０と通信可能となっていてもよい。

（変形例４）
音声ファイル管理テーブル２６に格納される情報は、図５に示した情報に限定されず、別の情報を格納してもよい。例えば、ある音声ファイルに関連付けられた各ユーザ（ユーザＩＤ）毎にユーザが音声ファイルにアクセスしたか否かを示すフラグ（例えば、１はアクセスしたことを示し、０は未アクセスであることを示す）を格納し、音声ファイルの生成から予め定められた時間が経過してもその音声ファイルにアクセスしていないユーザに対しては、メールなどで未アクセスであることを通知してもよい。或いは、未アクセスの音声ファイルがあるユーザに対しては、所定の情報の閲覧を制限するなど、音声ファイルのアクセス状態に応じて、サーバ２０がユーザに提供するサービスに制限を設けてもよい。

（変形例５）
上述した実施形態においては、音声記録システム１は、２つの収音装置１０ａ、１０ｂを有するが、本発明はこれに限定されず、収音装置の数は３以上でもよい。例えば、音声記録システム１が、空間Ａに隣接する空間Ｂとは別の空間Ｃで生成される音を収音する第３収音装置１０ｃ（図示せず）を更に有する場合、第１収音装置１０ａが収音した音を表す第１音信号を、第２収音装置１０ｂが収音した音を表す第２音信号及び第３収音装置１０ｃが収音した音を表す第３音信号に基づいて加工してもよい。

（変形例６）
上記実施形態では、患者に渡す薬を入れた袋などにサーバ２０のＵＲＬを示すＱＲコードを印刷したが、本発明はこれに限定されない。例えば、サーバ２０のＵＲＬを示すＱＲコードの代わりに、カウンセリングにおいてなされた会話を記録した音声ファイルの格納場所を示すＵＲＬを表すＱＲコードを印刷してもよい。その場合も、サーバ２０は、アクセス要求に応じてユーザの認証を行うが、認証後にユーザがアクセスできるファイルは当該ＵＲＬで示された格納場所にある音声ファイルのみに限定してもよい。

（変形例７）
上述した実施形態においては、音声記録システム１を、医療機関における医者と患者の会話を記録する場合に用いた。しかしながら、本実施形態の音声記録システム１の用途は、医療機関での医者と患者の会話の記録に限定されない。例えば、薬局や銀行のカウンターのように、隣接するカウンターとカウンターの距離が比較的近い場合に、各カウンターに収音装置１０を設置し、各収音装置１０が対応するカウンターでなされる会話音声を収音するようにしてもよい。この場合も、各収音装置１０が生成する音信号を隣接する収音装置が生成する音信号に基づいて加工することで、不要な音信号成分（隣接するカウンターでの会話に起因する音信号成分）を除去または低減させることができる。また、各収音装置１０は３人以上の話者の音声を収音してもよいし、一人の話者の音声を収音してもよい。

尚、音声記録システム１を医療機関での医者と患者の会話の記録以外の用途に用いる場合、図５に示した音声ファイル管理テーブル２６の内容も、その用途に合わせて適宜変更される。例えば、音声記録システム１を銀行窓口において顧客と説明員の会話の記録に用いる場合、音声ファイル管理テーブル２６には、音声ファイルに記録された音声の内容を示す情報として、説明した金融商品の種類（定期預金、外貨預金、住宅ローンなど）や、顧客の性別、顧客の年齢、顧客の年収等が格納される。

（変形例８）
上述した実施形態においては、ユーザ端末３０上でブラウザソフトを起動し、ブラウザソフトを用いてサーバ２０にアクセスするものとしたが、本発明はこれに限定されない。例えば、ユーザ端末３０が携帯電話の場合、ユーザ端末３０から予め定められた電話番号に電話をすることで、サーバ２０にアクセスするようにしてもよい。

（変形例９）
上述した実施形態においては、第１収音装置１０ａが収音した空間Ａにおける医師と患者の会話音声を表す第１音信号を加工し、第１音信号に含まれる不用な音信号成分（例えば、空間Ａに隣接する空間Ｂにおいて生成された音に起因する音信号成分）が除去または低減された加工済み第１音信号（音声ファイル）を生成して、ユーザからアクセス可能なようにサーバ２０の記憶部２２に格納したが、ユーザが関心のある情報のみを含むように音声ファイルを再構成し、再構成した音声ファイルをサーバ２０の記憶部２２に格納してもよい。この音声ファイルの再構成は、例えば、音声ファイルが記憶部２２に格納された後、ユーザからのリクエストに応じて行ってもよいし、或いは、ユーザからのリクエストなしに、自動で行ってもよい。ユーザによる音声ファイル再構成のリクエストは、例えば、ユーザがユーザ端末３０を操作してサーバ２０にログインしたときにユーザ端末３０に表示されるメニュー画面に「再構成」ソフトボタンを設け（図１７参照）、ユーザがタッチ操作により音声ファイルを選択して、「再構成」ソフトボタンをタッチしたことをユーザ端末３０の操作部３５のタッチパネルで検出し、その操作内容を示す情報をユーザ端末３０からサーバ２０に送信することによりなされる。尚、ユーザが「再構成」ソフトボタンにタッチしたとき、再構成元の音声ファイルを示す情報（例えば、日付けと担当医師など）をユーザ端末３０に表示して、ユーザが確認できるようにしてもよい。

図１４は、変形例９に係るサーバ２０の構成を示すブロック図である。図１４において、図３と共通する部分には同じ符号を付して詳しい説明を省略する。図１４のサーバ２０の制御部２１は、音信号（音声ファイル）を再構成する再構成部１００として機能する。また、記憶部２２には、音声ファイルの再構成において用いられるキーワードデータベース２９が格納されている。

図１５は、キーワードデータベース２９の一例を示す模式図である。図１５（Ａ）は、医療カウンセリングを受けたユーザが登録したキーワードの例を示しており、図１５（Ｂ）は、金融商品の説明を受けたユーザが登録したキーワードの例を示している。図１５（Ａ）及び（Ｂ）に示すように、キーワードデータベース２９には、各ユーザごとに１または複数のキーワードが登録され、各キーワードには重要度が割り当てられている。この例では、各キーワードに重要度として１〜３の数値が割り当てられ、数値が大きいほど重要度が高いものとする。キーワードの登録、重要度の割り当て及びそれらの変更は、例えば、サーバ２０にログインした状態で、各ユーザがユーザ端末３０を操作することにより行うことができる。

図１６は、再構成部１００の構成を示すブロック図である。再構成部１００は、音声ファイル特定部１０１と、分割部１０２と、ユーザ特定部１０３と、キーワード取得部１０４と、抽出部１０５と、結合部１０６とを有する。

音声ファイル特定部１０１は、再構成を行う音声ファイルを特定する。より具体的には、音声ファイル特定部１０１は、再構成を行う音声ファイルを特定する音声ファイル特定情報を取得する。例えば、ユーザリクエストに応じて再構成を行う場合、音声ファイル特定部１０１は、ユーザ端末３０の操作によってユーザが選択した音声ファイルのファイル名（または、その格納場所を示す情報）を、再構成対象の音声ファイルを特定する音声ファイル特定情報として取得する。音声ファイルが記憶部２２に格納された後、ユーザからのリクエストなしに、自動で再構成を行う場合は、その記憶部２２に新たに格納された音声ファイルのファイル名（または、その格納場所を示す情報）を、再構成対象の音声ファイルを特定する情報として取得する。

分割部１０２は、記憶部２２に格納された音声ファイルから、音声ファイル特定部１０１が取得した音声ファイル特定情報によって特定される音声ファイル（例えば、図５の音声ファイルＸＸＸ．ＷＭＡ）を読み出し、読み出した音声ファイルを複数の部分（以下、音声ブロックという）に分割する。この音声ファイルの分割は、例えば、無音部分が予め定められた時間（例えば１秒）続いた箇所で分割する、分割により生成される各音声ブロックの長さが予め定められた長さ（例えば３０秒）となるように分割する、あるいは、音声ファイルに対して音声認識を行い音声に含まれる文節を特定し、文節単位で分割する、というように様々な方法で行うことができる。

ユーザ特定部１０３は、どのユーザの登録キーワードを用いて音声ファイルの再構成を行うかを特定する。より具体的には、ユーザ特定部１０３は、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報を取得する。例えば、音声ファイルの再構成がユーザリクエストに応じてなされる場合、ユーザ特定部１０３は、再構成をリクエストしたユーザのユーザＩＤを、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報として取得する。再構成が自動でなされる場合、ユーザ特定部１０３は、例えば、再構成対象の音声ファイルに会話が記録された患者（例えば、音声ファイルＸＸＸ．ＷＭＡの場合、ユーザＩＤが０００００１のユーザ）のユーザＩＤを、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報として取得する。

キーワード取得部１０４は、記憶部２２に格納されたキーワードデータベース２９から、ユーザ特定部１０３が取得したユーザ特定情報によって特定されるユーザの登録キーワードを取得する。

抽出部１０５は、分割部１０２によって生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、キーワード取得部１０４によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する。

結合部１０６は、抽出部１０５によって抽出された音声ブロックを結合して再構成された音声ファイル（音信号）を生成する。抽出した音声ブロックを結合する際、結合部１０６は、音声ブロック間の時間的順序を保ったまま結合してもよいし、あるいは、順序を入れ替えて結合してもよい。例えば、抽出された各音声ブロックに含まれる１または複数のキーワードに割り当てられた重要度の合計値をその音声ブロックの重要度とし、重要度の高い順に音声ブロックを並べ替えて結合する。あるいは、抽出された各音声ブロックに含まれる１または複数のキーワードに割り当てられた重要度のうち最大値をその音声ブロックの重要度として、重要度に応じた並べ替えを行ってもよい。音声ブロックに含まれるキーワードに基づいてどのようにして音声ブロックの重要度を決定するかは任意である。抽出された音声ブロックの数が予め定められた数より多い場合や、抽出された音声ブロックの時間の合計が予め定められた長さより長い場合、重要度の低い音声ブロックを結合対象から除外、即ち、再構成された音声ファイルに含まれないようにしてもよい。尚、上記した予め定められた数及び予め定められた長さは、ユーザがユーザ端末３０の操作部３５を操作することによって指定／変更可能であってもよい。即ち、ユーザが操作部３５を操作することで、結合される音声ブロックの予め定められた数または結合される音声ブロック（即ち、再構成される音声ファイル）の予め定められた長さをパラメータとして設定できるようにしてもよい。この場合、ユーザ端末３０はユーザによって設定されたパラメータをサーバ２０へ送信し、サーバ２０では、受信したパラメータに応じて、上記したように、結合部１０６によって結合される音声ブロックが変化する。これにより、再構成された音声ファイルの長さを、ユーザが設定したパラメータに応じて変えることができる。尚、ユーザによって設定されるパラメータは、上記のものに限定されない。例えば、音声ブロックの重要度の高低の基準となる閾値をパラメータとしてユーザが設定可能とし、結合部１０６は、設定された閾値より高い重要度の音声ブロックを結合して再構成された音声ファイルを生成してもよい。

制御部２１は、結合部１０６によって生成された再結合された音声ファイルを、記憶部２２に格納するとともに、図５に示した音声ファイル管理テーブル２６に、再構成された音声ファイルのファイル名を、関連する情報（日付け、担当医師、再構成された音声ファイルにアクセス可能なユーザのユーザＩＤなど）と共に格納する。尚、再構成された音声ファイルに関連付けて音声ファイル管理テーブル２６に格納される日付け、担当医師、カウンセリング内容は、元の音声ファイルと同じである。また、再構成された音声ファイルに関連付けて音声ファイル管理テーブル２６に格納されるユーザＩＤは、元の音声ファイルと同じとしてもよいし、例えば再構成をリクエストしたユーザの指示に基づいて変更してもよい。

再構成された音声ファイルは、ユーザがユーザ端末３０の操作によりサーバ２０にログインしたとき、ユーザ端末３０に表示されるメニュー画面において、ユーザが選択可能なように表示される。図１７にメニュー画面の一例を示す。図１７の例は、ユーザＩＤが０００００１のユーザに対するメニュー画面を示している。この例では、２０１０年９月８日に行われたカウンセリングを記録した音声ファイル（ＸＸＸ．ＷＭＡ）を再構成した音声ファイルが再構成部１００によって生成され、メニュー画面において元の音声ファイルと区別して表示されている。具体的には、図１７に示したメニュー画面では、「ファイル種別」欄が設けられ、再構成された音声ファイルでは、そこに「再構成１」と表示されており、元の音声ファイルでは空欄となっている。尚、例えば、一つの音声ファイルに対し複数のユーザ（例えば、患者本人とその家族）が再構成をリクエストした場合のように、一つの音声ファイルに対し複数の再構成された音声ファイルが生成される場合、それらの複数の再構成された音声ファイルに対する「ファイル種別」欄の表示を「再構成１」、「再構成２」、・・・のように異ならせることで、これら複数の再構成された音声ファイルをユーザが区別できるようにするとよい。また、それぞれの再構成された音声ファイルがどのような条件で生成されたかを示す情報（例えば、再構成元の音声ファイルの作成日、担当医師名、再構成に用いられたキーワードなど）を、再構成された音声ファイルの属性情報としてメニュー画面において表示してもよい。

再構成された音声ファイルが生成される場合、例えば、患者へ渡す薬を入れた袋などに、元の音声ファイルの格納場所を示すＵＲＬを表すＱＲコードだけでなく、再構成された音声ファイルの格納場所を示すＵＲＬを表すＱＲコードを印刷することで、ユーザが再構成した音声ファイルに容易にアクセスできるようにしてもよい。

図１８は、変形例９に係るサーバ２０の音声ファイル再構成に関する動作を示すフローチャートである。ユーザ端末３０から音声ファイル再構成のリクエストを受け取ると、サーバ２０の制御部２１は音声ファイルの再構成動作を開始する。あるいは、音声ファイルの再構成を自動で行うよう設定されている場合、新たな音声ファイルが生成されて記憶部２２に格納されるのに応じて、音声ファイルの再構成動作を開始してもよい。音声ファイルの再構成動作を開始すると、制御部２１は、再構成すべき音声ファイルを特定する（ステップＳ５０）。即ち、制御部２１は、音声ファイル特定部１０１として機能する。ユーザリクエストに応じて再構成を行う場合、制御部２１は、ユーザ端末３０の操作によってユーザが選択した音声ファイルを、再構成対象の音声ファイルとして特定し、音声ファイルが記憶部２２に格納された後、自動で再構成を行う場合は、その記憶部２２に新たに格納された音声ファイルを、再構成対象の音声ファイルとして特定する。

続いて、制御部２１は、ステップＳ５０で特定された音声ファイルを記憶部２２から読み出し（ステップＳ５１）、読み出した音声ファイルを音声ブロックに分割する（ステップＳ５２）。即ち、制御部２１は、分割部１０２として機能する。

ステップＳ５３において、制御部２１は、どのユーザの登録キーワードを用いて音声ファイルの再構成を行うかを特定する。即ち、制御部２１は、ユーザ特定部１０３として機能する。

続いて、制御部２１は、ステップＳ５３で特定されたユーザの登録キーワードを、記憶部２２に格納されたキーワードデータベース２９から取得する（ステップＳ５４）。即ち、制御部２１は、キーワード取得部１０４として機能する。

ステップＳ５５において、制御部２１は、ステップＳ５２で生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、ステップＳ５４で取得した登録キーワードを少なくとも一つ含む音声ブロックを抽出する。即ち、制御部２１は、抽出部１０５として機能する。

続いて、制御部２１は、ステップＳ５５で抽出した音声ブロックを結合して再構成された音声ファイルを生成する（ステップＳ５６）。即ち、制御部２１は、結合部１０６として機能する。生成された再結合された音声ファイルは、記憶部２２に格納される（ステップＳ５７）。

尚、図１８の例では、ステップＳ５３及びＳ５４（登録キーワードを用いるユーザの特定及び登録キーワードの取得）を、ステップＳ５０〜Ｓ５２（音声ファイルの特定、読出し、及び分割）の後に行っているが、本発明はそれに限定されず、ステップＳ５３及びＳ５４をステップＳ５０〜Ｓ５２の前に行ってもよい。要は、ステップＳ５５の音声ブロックの抽出の前に、音声ファイルの分割及び登録キーワードの取得がなされていればよい。

上述したように、ユーザ毎に登録されたキーワードを用いて音声ファイルの必要な部分を抽出してフレキシブルに再構成した音声ファイルを生成することにより、各ユーザが自分が関心のある部分のみを短時間に聞くことが可能となる。また、音声ファイルを再構成する際に、再構成された音声ファイルの長さがユーザが指定した長さを越えないよう、重要度の低い音声ブロックが再構成された音声ファイルに含まれないようにする場合、ユーザは指定した時間で再構成された音声ファイルを再生しその内容を確認することができる。

（変形例１０）
上述した変形例９において、ユーザ特定部１０３は、音声ファイルの再構成がユーザリクエストに応じてなされる場合、再構成をリクエストしたユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定したが、本発明はこれに限定されない。例えば、再構成をリクエストするユーザがユーザ端末３０を操作して、自分と類似した状況の他のユーザを指定できるようにし、ユーザ特定部１０３は、指定された他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定してもよい。この場合、各ユーザの登録キーワードには、個人情報の保護の観点では各ユーザの個人情報（氏名、詳細な住所など）が含まれないことが望ましい。

状況が類似したユーザとは、例えば、図５に示した音声ファイル管理テーブルに格納されたカウンセリング内容を示す情報（例えば、病名、処方された薬、患者の症状、患者の性別、患者の年齢、患者の肥満度等）が類似したユーザ（患者）である。サーバ２０の制御部２１は、あるユーザと他のユーザのそれぞれのカウンセリング内容を示す情報に、同じ病名が含まれる場合は１０ポイント、処方された薬が同じ場合は８ポイント、・・・というように、予め定められた項目について一致する場合に所定のポイントを加算することにより、これらユーザのカウンセリング内容を示す情報の類似度（状況の類似度ともいう）を計算し、状況の類似度が予め定められた値より高い場合、これらユーザを状況が類似したユーザと判定する。サーバ２０の制御部２１は、各ユーザのユーザ端末３０に表示されるメニュー画面に、そのユーザと状況が類似した他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示させ、ユーザが音声ファイルの再構成をリクエストする際、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにする。或いは、制御部２１は、各ユーザのユーザ端末３０に表示されるメニュー画面に、そのユーザとの状況の類似度が高い順に降順で一覧表示する方法や、そのユーザとの状況の類似度が高い順に予め定められた人数（例えば、３人）の他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示し、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにしてもよい。タッチ操作の内容はユーザ端末３０からサーバ２０に送信される。ユーザ特定部１０３は、ユーザが選択したエリア（または、そのエリアに表示された登録キーワード）に関連付けられた他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定する。尚、各ユーザのユーザ端末３０に表示されるメニュー画面には、個人情報の保護の観点では他のユーザの個人情報（例えば、氏名やユーザＩＤ）は表示されないことが望ましい。また、例えばあるユーザが複数回のカウンセリングを受け、そのユーザに対し複数個の音声ファイルが生成されている場合、最も新しい音声ファイルに関連付けられたカウンセリング内容を示す情報を用いて、他のユーザとの状況の類似度を判断してもよいし、あるいは、複数の音声ファイルに関連付けられたカウンセリング内容を示す情報を全て用いて、他のユーザとの状況の類似度を判断してもよい。更に、予め定められた数（例えば５つ）の直近の音声ファイルに関連付けられたカウンセリング内容を示す情報を用いて他のユーザとの状況の類似度を判断してもよい。このように、あるユーザに対し複数の音声ファイルが生成されている場合、他のユーザとの状況の類似度を判断するための音声ファイルの選び方は任意である。

図１９は、変形例１０に係るサーバ２０及びユーザ端末３０の動作を示すシーケンス図である。ここで、ユーザはサーバ２０にログインしているものとする。操作部３５を通じてユーザによる音声ファイル再構成リクエストの操作を受け付けると（ステップＳ６０）、ユーザ端末３０はサーバ２０に対し再構成リクエストを送信する（ステップＳ６１）。この再構成リクエストは、図１７に示したようなメニュー画面において、ユーザがタッチ操作により音声ファイルを選択して、「再構成」ソフトボタンをタッチするのに応じて生成され、操作内容を示す情報（即ち、どの音声ファイルが選択されたかを示す情報）が含まれる。

再構成リクエストを受信したサーバ２０の制御部２１は、リクエスト送信元のユーザと状況が類似した他のユーザを抽出し（ステップＳ６２）、抽出したユーザの登録キーワードの全部または一部をキーワードデータベース２９から読出し（ステップＳ６３）、状況の類似度と共にリクエスト送信元のユーザ端末３０に送信する（ステップＳ６４）。また、ステップＳ６１で受信した再構成リクエストに含まれる情報に基づき、再構成対象の音声ファイルの特定、特定した音声ファイルの記憶部２２からの読出し、及び、読み出した音声ファイルの音声ブロックへの分割を行う（ステップＳ６５）。このステップＳ６５の処理は、図１８のステップＳ５０〜Ｓ５２の処理と同様である。

ユーザ端末３０は、登録キーワード及び状況の類似度を受信すると、互いに関連付けて一覧表示する。ユーザが所望の登録キーワードが表示されたエリアをタッチ操作により選択すると、ユーザ端末３０はその選択操作を受け付け（ステップＳ６６）、選択操作の内容を表す選択操作情報をサーバ２０に送信する（ステップＳ６７）。

サーバ２０の制御部２１は、選択操作情報に基づき、ユーザが選択したエリア（または、そのエリアに表示された登録キーワード）に関連付けられた他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定し（ステップＳ６８）、特定したユーザの登録キーワードを記憶部２２から取得する（ステップＳ６９）。尚、ステップＳ６３において、ステップＳ６２で抽出した他のユーザの登録キーワードを全て読み出している場合は、ステップＳ６８及びＳ６９を省略してもよい。

続いて、制御部２１は、ステップＳ６５で生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、ステップＳ６９で取得した登録キーワードを少なくとも一つ含む音声ブロックを抽出し、抽出した音声ブロックを結合して再構成された音声ファイルを生成する（ステップＳ７０）。ステップＳ７０の処理は、図１８のステップＳ５５及びＳ５６の処理と同様である。生成された再結合された音声ファイルは、記憶部２２に格納される（ステップＳ７１）。

このように、ユーザが指定した他のユーザの登録キーワードを用いて音声ファイルの再構成を行うことによって、ユーザ自らがキーワードの登録を行う手間を省くことができる。また、ユーザが自分で登録したキーワードを用いて音声ファイルの再構成を行う場合でも、それとは別に、他のユーザの登録キーワードを用いて同じ音声ファイルの再構成を行って、それらを再生して内容を確認することで、重要な情報の抽出漏れの可能性を低減することができる。尚、あるユーザ（ユーザＡ）の登録キーワードを用いて音声ファイルの再構成を行う場合に、同じ音声ファイルに対して他のユーザ（ユーザＢ）の登録キーワードを用いた再構成によって生成された音声ファイルが既にある場合、これらユーザＡ及びＢの登録キーワードのうち共通するものを、再構成において用いるユーザＡの登録キーワードから除いてもよい。それによって、これらユーザＡ及びＢの登録キーワードに基づいて生成される２つの再構成された音声ファイルにおける情報の重複を減らすことができる。また、登録キーワードが音声ファイルの再構成に用いられるユーザとして、２以上のユーザを同時に指定し、これら２以上のユーザの登録キーワードを合わせて用いて音声ファイルの再構成を行ってもよい。その場合、指定された２以上のユーザの登録キーワード間で共通するキーワードに各ユーザが異なる重要度を設定しているときは、それらの最大値または平均値をそのキーワードに割り当てられた重要度として用いるとよい。或いは、指定された２以上のユーザの登録キーワード間で共通するキーワードのみを用いて音声ファイルの再構成を行ってもよい。

（変形例１１）
上述した変形例９では、１つの音声ファイルを再構成して再構成された音声ファイルを生成したが、本発明はこれに限定されない。複数の音声ファイルをまとめて再構成して、１つの再構成された音声ファイルを生成してもよい。例えば、図９のメニュー画面には、ユーザＩＤが０００００１のユーザに対し日付けの異なる２つの音声ファイルが示されているが、これら２つの音声ファイルを指定して再構成のリクエストがされた場合、サーバ２０の音声ファイル特定部１０１は、これら２つの音声ファイルを再構成される音声ファイルとして特定する。分割部１０２は、音声ファイル特定部１０１によって特定された２つの音声ファイルを記憶部２２から読み出し、各音声ファイルを分割して音声ブロックを生成する。抽出部１０５は、２つの音声ファイルを分割して生成された音声ブロックから、キーワード取得部１０４によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する。結合部１０６は、抽出部１０５によって抽出された音声ブロックを結合して再構成された音声ファイル（音信号）を生成する。即ち、この場合、再構成部１００は、２つの音声ファイルをまとめて再構成して１つの音声ファイルを生成する。尚、再構成元となる音声ファイルの選択は、個々に指定する場合に限定されない。例えば、指定した条件を満たす音声ファイルをまとめて再構成元の音声ファイルとして選択してもよい。例えば、再構成をリクエストするユーザが期間を指定して、作成日が指定された期間内にある音声ファイルを再構成元の音声ファイルとしてもよいし、特定の医師が行ったカウンセリング時の会話を記録した音声ファイルを再構成元の音声ファイルとしてもよい。特定の疾患についてなされたカウンセリング時の会話を記録した音声ファイルを再構成元の音声ファイルとしてもよい。このように、再構成元となる音声ファイルの選択は、様々な方法で可能である。

また、再構成される複数の音声ファイルは同一ユーザのものでなくてもよい。例えば、同じ家族に属する複数のユーザが同じ症状についてカウンセリングを受けている場合、それぞれのカウンセリング内容を記録した複数の音声ファイルをまとめて再構成してもよい。尚、音声ファイルをまとめて再構成可能なユーザは同一家族に限らず、任意に設定可能である。

また、再構成される音声ファイルは、未再構成の音声ファイルに限らず、再構成された音声ファイルを、更に再構成してもよい。例えば、複数の再構成された音声ファイルをまとめて更に再構成してもよい。

（変形例１２）
上述した変形例９では、キーワードデータベース２９において、キーワードの重要度の割り当て及び変更は、各ユーザがサーバ２０にログインした状態でユーザ端末３０を操作することにより行った。しかしながら、本発明はこれに限定されない。例えば、予め病院側で作成したキーワードリストをサーバ２０の記憶部２２に格納しておき、各ユーザ毎に登録されたキーワードのうち、予め作成されたキーワードリストに含まれるキーワードと一致したキーワードに高い重要度を割り当て、そうでないキーワードに低い重要度を割り当ててもよい。尚、本発明を銀行や保険会社等の金融会社の説明員が顧客に金融商品について説明する場合の会話の記録に用いる場合、金融会社で予め作成したキーワードリストを用意すればよい。また、ユーザ毎に登録された登録キーワードの代わりに、病院や金融会社が予め作成したキーワードリストを用いて音声ファイルの再構成を行ってもよい。

あるいは、各ユーザの登録キーワードに各ユーザが設定した重要度を、予め作成されたキーワードリストに含まれるキーワードに対しては所定の値だけ高め、そうでないキーワードに対しては所定の値だけ下げるというように、各ユーザの登録キーワードの重要度の割り当てをユーザによる設定と予め定められたキーワードリストの両方に基づいて行ってもよい。あるいは、多くのユーザが共通して登録しているキーワードには高い重要度を割り当て、登録しているユーザ数が少ないキーワードには低い重要度を割り当ててもよい。また、あるユーザに対して登録されているキーワードの重要度を、そのユーザと状況が類似した他のユーザ（状況が類似した他のユーザの数が、予め定められた数（例えば、１００）を越える場合は、状況の類似度がより高い予め定められた数の他のユーザ）の間で、より多く共通して登録されているキーワードには高い重要度を割り当て、登録している他のユーザが少ないキーワードには低い重要度を割り当てるる、というようにして設定してもよい。

（変形例１３）
上記実施形態では、音声ファイルは、音声ファイル管理テーブル２６において当該音声ファイルに関連付けられたユーザＩＤのユーザしかアクセスできないものとしたが、本発明はそれに限定されない。例えば、あるユーザの音声ファイル（再構成されていないもの、または、再構成されたもののいずれでもよい）を、そのユーザの同意がある場合、任意のユーザからアクセス可能（即ち、任意のユーザのリクエストによって再生や再構成が可能）としてもよい。そのような任意のユーザからアクセス可能な音声ファイルに対しては、例えば、図５の音声ファイル管理テーブル２６において、ユーザＩＤ（１）欄に、予め定められたユーザＩＤ（例えば、「００００００」）を格納したり、あるいは、ユーザＩＤ（１）〜ユーザＩＤ（Ｎ）欄を全て空欄としたりすることによって、任意のユーザからアクセス可能であることを示すことができる。

任意のユーザからアクセス可能な音声ファイルがある場合、サーバ２０の制御部２１は、例えば、図８のステップ２７においてユーザの認証が正常になされたとき（即ち、ユーザがサーバ２０にログインしたとき）、ステップ２８において、そのユーザを含む特定のユーザのみがアクセス可能な音声ファイルに関する情報だけでなく、任意のユーザからアクセス可能な他のユーザの音声ファイルに関する情報（例えば、日付け、カウンセリング内容など）を音声ファイル管理テーブル２６から抽出し、抽出した情報を用いてメニュー画面データを生成する。あるいは、任意のユーザからアクセス可能な音声ファイルのうち、ログインしたユーザと状況が類似した他のユーザの音声ファイルを抽出して、抽出した音声ファイルに関する情報がユーザのログイン画面に表示されるように、メニュー画面データを生成してもよい。ユーザは、メニュー画面に表示された他のユーザの音声ファイルに関する情報の表示欄をタッチ操作することなどにより、所望の音声ファイルを選択し、再生または再構成などの所望の操作を指示する。このように、自分と状況が類似した他のユーザの音声ファイルにアクセス可能とすることにより、ユーザは、自分と状況が類似した他のユーザがどのような診断や提案をされているかを知ることができ、自分に対してなされた診断や提案を正確に評価できる。

尚、任意のユーザからアクセス可能な音声ファイルは、個人情報の保護の観点では音声ファイルに含まれる個人情報（氏名や住所など）が聞き取られないように処理されていることが望ましい。そのような個人情報の処理は、個人情報を示す音声部分を消去したり、あるいは、個人情報を示す音声部分に別の音（例えば、ビープ音や効果音）を重ねて聞き取れないようにすることによりなされる。

（変形例１４）
上記した変形例９では、抽出部１０５は、分割部１０２によって生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、キーワード取得部１０４によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出したが、本発明はこれに限定されない。例えば、記憶部２２に様々な用語（キーワード）の各々に対し類語を記録した類語データベースを格納しておき、抽出部１０５は、キーワード取得部１０４によって取得された各キーワードの類語を類語データベースを参照することで取得し、これらキーワード及びその類語を少なくとも一つ含む音声ブロックを抽出してもよい。この場合、各類語の重要度は、対応するキーワードに割り当てられた重要度と同じとしてもよいし、あるいは、対応するキーワードに割り当てられた重要度に予め定められた値（例えば、０より大きく１より小さい値）を掛けた値としてもよい。

また、抽出部１０５は、分割部１０２によって生成された音声ブロックの中から、キーワード取得部１０４によって取得されたキーワードのうち、予め定められた閾値以上の重要度が割り当てられたキーワードを少なくとも一つ含む音声ブロックを抽出してもよい。尚、キーワードの重要度の閾値はユーザによって指定／変更可能であってもよい。即ち、ユーザがユーザ端末３０の操作部３５を操作することでキーワードの重要度の閾値を設定可能としてもよい。この場合、ユーザ端末３０はユーザによって設定された閾値をサーバ２０へ送信し、サーバ２０では、受信した閾値に基づいて、上記したように、抽出部１０５によって抽出される音声ブロックが変化し、その結果、結合部１０６によって結合される音声ブロックが変化する。即ち、この場合、ユーザによって設定されるキーワードの重要度の閾値が、ユーザによって設定されるパラメータとして機能する。この場合も、再構成された音声ファイルの長さを、ユーザが設定したパラメータに応じて変えることができる。

（変形例１５）
上記実施形態では、会話内容を記録した音声ファイル（または、再構成された音声ファイル）を、ユーザがユーザ端末３０を介してアクセス可能なようにサーバ２０の記憶部２２に格納したが、本発明はこれに限定されない。サーバ２０において音声ファイル（または、再構成された音声ファイル）に対し音声認識を行い、テキストデータを作成し、これを記憶部２２に格納してもよい。また、テキストデータを印刷して例えば郵送によりユーザに送付してもよい。

また、サーバ２０は、例えば音声ファイルの再生／再構成をリクエストしたユーザが登録したキーワードを用いて一般の検索エンジンを用いてインターネットまたは自身の記憶部２２に格納されたデータベース上で検索を行い、これらキーワードに関連する情報を、音声ファイルまたは再構成された音声ファイルと共にユーザに提供してもよい。このとき、ユーザが登録したキーワード全てについて検索を行うのではなく、予め決められた値以上の重要度が割り当てられたキーワードについてのみ検索を行ってもよい。それにより、ユーザに提供する情報が膨大になり過ぎるのを防止することができる。

（変形例１６）
上記実施形態では、音声ファイル管理テーブルに格納されたカウンセリング内容を示す情報（即ち、音声ファイルに記録された音声の内容を示す情報）が類似したユーザを、状況が類似したユーザとしたが、本発明はこれに限定されない。例えば、音声認識により、各音声ファイルのテキストデータが生成されている場合、音声ファイルのテキストデータの内容が類似したユーザを類似したユーザとしてもよい。ある音声ファイルのテキストデータと他の音声ファイルのテキストデータの類似度は、例えば、予め定められたキーワードリストに含まれるキーワードを各音声ファイルのテキストデータから抽出し、一方の音声ファイルのテキストデータから抽出されたキーワードと、他方の音声ファイルのテキストデータから抽出されたキーワードの一致の程度に基づいて判定すればよい。

また、別の方法として、各ユーザに対して登録されたキーワードが類似したユーザを、状況が類似したユーザと判断してもよい。

（変形例１７）
変形例１０では、サーバ２０の制御装置２１が、ユーザの状況の類似度を計算し、各ユーザのユーザ端末３０に表示されるメニュー画面に、そのユーザと状況が類似した他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示させ、ユーザが音声ファイルの再構成をリクエストする際、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにしたが、本発明は、これに限定されない。別の方法として、各ユーザがユーザ端末３０を操作することで、サーバ２０の記憶部２２に記憶された他のユーザの音声ファイルに関連付けられたカウンセリング内容を示す情報を検索可能とし、各ユーザが特定の病名や薬名などの検索ワードを用いて検索することにより、検索結果として、自分と状況が類似する（即ち、カウンセリング内容を示す情報に検索ワードが含まれる）他のユーザの登録キーワードの全部または一部がユーザ端末３０に一覧表示されるようにしてもよい。この場合も、ユーザ端末３０に表示される検索結果には、個人情報の保護の観点では他のユーザの個人情報は含まれないことが好ましい。ユーザ端末３０のユーザは、表示された検索結果から、所望の登録キーワードが表示されたエリアをタッチ操作により選択する。タッチ操作の内容はユーザ端末３０からサーバ２０に送信され、ユーザ特定部１０３は、ユーザが選択したエリア（または、そのエリアに表示された登録キーワード）に関連付けられたユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定する。

１…音声記録システム、１０…収音装置、１１…制御部、１２…記憶部、１３…通信部、１４…表示部、１５…操作部、１６…マイクロフォン、２０…サーバ、２１…制御部、２２…記憶部、２３…通信部、２４…認証部、２５…ユーザ情報管理テーブル、２６…音声ファイル管理テーブル、２７…信号加工部、２８…収音装置情報、２９…キーワードデータベース、３０…ユーザ端末、３１…制御部、３２…記憶部、３３…通信部、３４…表示部、３５…操作部、４０…マスカ音生成装置、５０…サーバ、１００…再構成部、１０１…音声ファイル特定部、１０２…分割部、１０３…ユーザ特定部、１０４…キーワード取得部、１０５…抽出部、１０６…結合部

Claims

話者から発せられた音声を収音し、収音した音声を表す第１音信号を生成する第１音信号生成装置と、前記第１音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第１音信号生成装置によって収音される前記話者の音声以外の音声を表す第２音信号を生成する第２音信号生成装置と通信可能な音声記録サーバ装置であって、
前記第１音信号生成装置から前記第１音信号を受信し前記第２音信号生成装置から前記第２音信号を受信する受信手段と、
前記第１音信号を前記第２音信号に基づいて加工し、前記第１音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第１音信号を生成する音信号加工手段と、
前記加工済み第１音信号を複数の音声ブロックに分割する音信号分割手段と、
複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、
前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、
前記音信号分割手段によって分割された前記加工済み第１音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、
前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、
前記再構成された音信号を記憶手段に格納する書き込み手段と
を有することを特徴とする音声記録サーバ装置。
前記書き込み手段は、前記再構成された音信号を、当該再構成された音信号にアクセス可能なユーザと関連付けて前記記憶手段に格納することを特徴とする請求項１に記載の音声記録サーバ装置。
前記各ユーザに対して登録されたキーワードの各々に対して重要度が割り当てられており、
前記結合手段は、前記抽出手段によって抽出された各音声ブロックの重要度を、各音声ブロックに含まれる前記キーワードに割り当てられた重要度に基づいて決定し、決定した重要度に基づいて、前記音声ブロックを並べ変えて結合する
ことを特徴とする請求項１または２に記載の音声記録サーバ装置。
前記書き込み手段は、前記音信号加工手段により生成された前記加工済み第１音信号を前記記憶手段に格納し、
当該音声記録サーバ装置は、複数の前記加工済み第１音信号が前記記憶手段に記憶されている場合、前記複数の加工済み第１音信号から２以上の第１音信号の各々を特定する音信号特定情報を取得する音信号特定手段を更に有し、
前記音信号分割手段は、前記音信号特定手段によって取得された音信号特定情報により特定される２以上の前記加工済み第１音信号の各々を複数の音声ブロックに分割し、
前記抽出手段は、前記２以上の前記加工済み第１音信号の各々を分割して得られた音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する
ことを特徴とする請求項１乃至３のいずれか一項に記載の音声記録サーバ装置。
ユーザにより設定されるパラメータに応じて、前記結合手段によって結合される前記音声ブロックが変化することを特徴とする請求項１乃至４のいずれか一項に記載の音声記録サーバ装置。
話者の音声を収音し、収音した音声を表す第１音信号を生成する第１音信号生成装置と、
前記第１音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第１音信号生成装置によって収音される前記話者の音声以外の音を表す第２音信号を生成する第２音信号生成装置と、
ユーザ端末、前記第１音信号生成装置、及び前記第２音信号生成装置と通信可能なサーバ装置とを有し、
前記サーバ装置は、
前記第１音信号を前記第２音信号に基づいて加工し、前記第１音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第１音信号を生成する音信号加工手段と、
前記加工済み第１音信号を複数の音声ブロックに分割する音信号分割手段と、
複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、
前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、
前記音信号分割手段によって分割された前記加工済み第１音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、
前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、
前記再構成された音信号を記憶手段に格納する書き込み手段と、
前記ユーザ端末からの要求に応じて、前記再構成された音信号を前記記憶手段から読み出す読み出し手段と、
前記読み出し手段によって読み出された前記再構成された音信号を前記ユーザ端末に送信する送信手段と
を有することを特徴とする音声記録システム。