JP5811642B2 - 音声記録サーバ装置及び音声記録システム - Google Patents

音声記録サーバ装置及び音声記録システム Download PDF

Info

Publication number
JP5811642B2
JP5811642B2 JP2011149370A JP2011149370A JP5811642B2 JP 5811642 B2 JP5811642 B2 JP 5811642B2 JP 2011149370 A JP2011149370 A JP 2011149370A JP 2011149370 A JP2011149370 A JP 2011149370A JP 5811642 B2 JP5811642 B2 JP 5811642B2
Authority
JP
Japan
Prior art keywords
sound
sound signal
user
audio file
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011149370A
Other languages
English (en)
Other versions
JP2013015726A (ja
Inventor
竹原 伸彦
伸彦 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011149370A priority Critical patent/JP5811642B2/ja
Publication of JP2013015726A publication Critical patent/JP2013015726A/ja
Application granted granted Critical
Publication of JP5811642B2 publication Critical patent/JP5811642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、音声記録サーバ装置及び音声記録システムに関する。
例えば医師と患者の会話、保険の契約時の説明など、後に確認が求められ得る会話を音声データとして記録し、記録した音声データをサーバに保存してユーザによる共用を可能とする音声記録システムが知られている(特許文献1、特許文献2)。このような音声記録システムでは、目的の音声以外の不要な音(例えば、銀行のカウンターにおいて説明員と顧客の間でなされる会話を記録する場合、隣のカウンターで別の説明員と顧客の間でなされる会話など)が記録されないようにすることが望ましい。
特許文献3には、目的音源の近くに雑音源がある場合に、雑音信号を抑制し、目的音を高いSN比で取り出す近接音分離収音装置が記載されている。特許文献3には、目的音信号と雑音信号とが混合された信号を複数の帯域信号に分割し、分割された各帯域信号の特徴量を求め、或る帯域信号の特徴量が目的音を表わす値である場合その帯域信号を目的音として判定し、特徴量が雑音を表わす値である場合、その帯域信号を雑音と判定し、その判定結果に従って各帯域信号に重み付けを施し、この重み付けにより雑音成分を除去することが記載されている(特許文献3、要約書)。
特開2000−173185号公報 特開2002−230203号公報 特開2006−178333号公報
特許文献3に記載の近接音分離収音装置では、目的音源が雑音源に比べてマイクロフォンに近接しているという条件が満たされる場合に、雑音信号の抑制を図ることが意図されている(特許文献3、段落0006)。しかしながら、雑音源と目的音源が等距離にある場合や雑音源の音量が目的音源の音量より大きい場合など、マイクロフォンに到達する雑音の音量が目的音の音量と同程度の場合、特許文献3に記載の近接音分離収音装置では、目的音信号を劣化させることなく雑音信号のみを抑制するのが困難である。
また、記録された音声からユーザが関心のある情報を、効率的に提供することが望まれている。
本発明は、上述した背景の下になされたものであり、会話などの音声を記録する音声記録サーバ装置において、目的の音声の劣化を抑えつつ不要な音を除去または低減して記録するとともに、ユーザが所望する情報を効率よく提供することを可能とする技術を提供することを目的とする。
上述した課題を解決するため、本発明は、話者から発せられた音声を収音し、収音した音声を表す第1音信号を生成する第1音信号生成装置と、前記第1音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第1音信号生成装置によって収音される前記話者の音声以外の音声を表す第2音信号を生成する第2音信号生成装置と通信可能な音声記録サーバ装置であって、前記第1音信号生成装置から前記第1音信号を受信し前記第2音信号生成装置から前記第2音信号を受信する受信手段と、前記第1音信号を前記第2音信号に基づいて加工し、前記第1音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第1音信号を生成する音信号加工手段と、前記加工済み第1音信号を複数の音声ブロックに分割する音信号分割手段と、複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、前記音信号分割手段によって分割された前記加工済み第1音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、前記再構成された音信号を記憶手段に格納する書き込み手段とを有することを特徴とする音声記録サーバ装置を提供する。
好ましい態様において、前記書き込み手段は、前記再構成された音信号を、当該再構成された音信号にアクセス可能なユーザと関連付けて前記記憶手段に格納してもよい。
他の好ましい態様において、前記各ユーザに対して登録されたキーワードの各々に対して重要度が割り当てられており、前記結合手段は、前記抽出手段によって抽出された各音声ブロックの重要度を、各音声ブロックに含まれる前記キーワードに割り当てられた重要度に基づいて決定し、決定した重要度に基づいて、前記音声ブロックを並べ変えて結合してもよい。
他の好ましい態様において、前記書き込み手段は、前記音信号加工手段により生成された前記加工済み第1音信号を前記記憶手段に格納し、当該音声記録サーバ装置は、複数の前記加工済み第1音信号が前記記憶手段に記憶されている場合、前記複数の加工済み第1音信号から2以上の第1音信号の各々を特定する音信号特定情報を取得する音信号特定手段を更に有し、前記音信号分割手段は、前記音信号特定手段によって取得された音信号特定情報により特定される2以上の前記加工済み第1音信号の各々を複数の音声ブロックに分割し、前記抽出手段は、前記2以上の前記加工済み第1音信号の各々を分割して得られた音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出してもよい。
他の好ましい態様において、ユーザにより設定されるパラメータに応じて、前記結合手段によって結合される前記音声ブロックが変化してもよい。
他の好ましい態様において、本発明は、話者の音声を収音し、収音した音声を表す第1音信号を生成する第1音信号生成装置と、前記第1音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第1音信号生成装置によって収音される前記話者の音声以外の音を表す第2音信号を生成する第2音信号生成装置と、ユーザ端末、前記第1音信号生成装置、及び前記第2音信号生成装置と通信可能なサーバ装置とを有し、前記サーバ装置は、前記第1音信号を前記第2音信号に基づいて加工し、前記第1音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第1音信号を生成する音信号加工手段と、前記加工済み第1音信号を複数の音声ブロックに分割する音信号分割手段と、複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、前記音信号分割手段によって分割された前記加工済み第1音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、前記再構成された音信号を記憶手段に格納する書き込み手段と、前記ユーザ端末からの要求に応じて、前記再構成された音信号を前記記憶手段から読み出す読み出し手段と、前記読み出し手段によって読み出された前記再構成された音信号を前記ユーザ端末に送信する送信手段とを有することを特徴とする音声記録システムを提供する。
本発明によれば、会話などの音声を記録する音声記録サーバ装置において、目的の音声の劣化を抑えつつ不要な音を除去または低減して記録するとともに、ユーザが所望する情報を効率よく提供することができる。
本発明の一実施形態に係る音声記録システムの全体構成を示すブロック図。 本発明の一実施形態に係る収音装置の構成を示すブロック図。 本発明の一実施形態に係るサーバの構成を示すブロック図。 ユーザ情報管理テーブルの一例を示す図。 音声ファイル管理テーブルの一例を示す図。 本発明の一実施形態に係るユーザ端末の構成を示すブロック図。 本発明の一実施形態に係るシステムの動作を示すシーケンス図。 本発明の一実施形態に係るシステムの動作を示すシーケンス図。 メニュー画面の一例を示す図。 本発明の変形例1に係る音声記録システムにおけるサーバの構成を示すブロック図。 本発明の変形例1に係る音声記録システムの動作を示すシーケンス図。 本発明の変形例2に係る音声記録システムの全体構成を示すブロック図。 本発明の変形例2に係る音声記録システムの動作を示すシーケンス図。 本発明の変形例9に係るサーバの構成を示すブロック図。 キーワードデータベースの一例を示す模式図。 再構成部の構成を示すブロック図。 変形例9に係るメニュー画面の一例を示す図。 変形例9に係るサーバの音声ファイル再構成に関する動作を示すフローチャート。 変形例10に係るサーバ及びユーザ端末の動作を示すシーケンス図。
[実施形態]
図1は、本発明の一実施形態に係る音声記録システムの全体構成を示すブロック図である。図1に示す音声記録システム1は、第1収音装置10aと、第2収音装置10bと、サーバ20と、ユーザ端末30とを有し、これら第1収音装置10a、第2収音装置10b、サーバ20、及びユーザ端末30は、LAN、インターネット、移動体通信網あるいはそれらの組み合わせなどからなる通信回線100に接続され、互いに通信可能となっている。音声記録システム1は、病院等の医療機関における医師と患者の会話、薬局における薬剤師と顧客の会話、銀行や保険会社における説明員と顧客の会話など、会話の内容を会話の当事者またはその関係者が後で確認することが望まれる様々な会話の記録に用いることができる。以下の説明では、音声記録システム1を医療機関でなされるカウンセリングにおける医師と患者(相談者)の会話の記録に用いる場合を例として説明する。
第1収音装置10a及び第2収音装置10bは、例えばカーテンや壁で仕切られた隣接した空間(空間A、空間B)に設置され、各空間においてなされる医師と患者の会話を収音して音信号を生成する。第1収音装置10aと第2収音装置10bは同一の構成とすることができるので、第1収音装置10aと第2収音装置10bを互いに区別する必要がない場合は、符号に添えられたアルファベットを省略して、「収音装置10」という。収音装置10は、本発明の音信号生成装置の一例である。
図2は、収音装置10の構成の一例を示すブロック図である。本実施形態において、収音装置10は、制御部11と、記憶部12と、通信部13と、表示部14と、操作部15と、マイクロフォン16とを備えている。収音装置10は、例えば、マイクロフォン付きのパーソナルコンピュータや携帯電話等の移動端末であってよい。
制御部11は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを備えており(図示せず)、CPUがROMや記憶部12に記憶されている制御プログラムを実行することによって収音装置10の各部を制御する。記憶部12は、例えばHDD(Hard Disk Drive)やフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。通信部13は、通信回線100を介して外部装置と通信するためのインタフェースである。表示部14は、例えば液晶表示装置であり、制御部11の制御の下、文字や画像などを表示する。操作部15は、表示部14の表示面に重ねて配置される透明のタッチパネルや複数の操作キーを備え、タッチパネルや操作キーを介して入力されるユーザからの指示を受け付ける。マイクロフォン16は、外部からの音を電気信号(音信号)に変換する。尚、マイクロフォン16が生成した電気信号を制御部11がA/D変換して得られるデジタル信号を音信号ということもある。制御部11は、後に詳述するように、音信号を加工する信号加工部17としても機能する。尚、以下の説明において、各構成要素が第1収音装置10aのものであることを示すときは符号の末尾に「a」を付し、第2収音装置10bのものであることを示すときは符号の末尾に「b」を付すこととする。
図3は、サーバ20の構成の一例を示すブロック図である。サーバ20は、本発明の音声記録サーバ装置の一例である。本実施形態において、サーバ20は、制御部21と、記憶部22と、通信部23とを備えている。
制御部21は、CPUと、ROMと、RAMとを備えており(図示せず)、CPUがROMや記憶部22に記憶されている制御プログラムを実行することによってサーバ20の各部を制御する。記憶部22は、例えばHDDやフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。後に詳述するように、記憶部22に格納されるデータには、医師と患者の会話を示す音声データ(音声ファイル)が含まれる。通信部23は、通信回線100を介して外部装置と通信するためのインタフェースである。
図3に示すように、記憶部22には、ユーザ情報管理テーブル25と音声ファイル管理テーブル26とが格納されている。ユーザ情報管理テーブル25の一例を図4に、音声ファイル管理テーブル26の一例を図5に示す。
図4に示すように、ユーザ情報管理テーブル25には、ユーザを識別するための識別情報の一例としてのユーザIDと、ユーザの氏名と、ユーザがサーバ20にアクセスする際の認証に用いられるパスワードとが関連付けて格納されている。ここでユーザには患者が含まれるが、ユーザは患者のみに限られず、音声ファイルにアクセス可能とすることが望まれる患者以外のユーザ(例えば、医師、患者の家族等)を含み得る。図3に示すように、制御部21は、ユーザがサーバ20にアクセスしようとする際、ユーザ情報管理テーブル25に格納されたデータに基づいてユーザの認証を行う認証部24として機能する。
図5に示すように、音声ファイル管理テーブル26には、各音声ファイルのファイル名と、音声ファイルにアクセス可能な1または複数のユーザのユーザIDと、音声ファイルが作成された日付けと、カウンセリングを行った担当医師と、カウンセリングを受けた患者のユーザIDと、カウンセリング内容を示す情報(例えばカウンセリングのテーマとなった病名、処方された薬、患者の症状、患者の性別、患者の年齢、患者の肥満度等)と、音声ファイルの格納場所を示す情報(例えば、URL(Uniform Resource Locator))とが、関連付けて格納されている。即ち、音声ファイル管理テーブル26は、音声ファイルを、ユーザ(患者、患者の家族など)、日付け、担当医師等の付属情報と関連付けるものである。図5の例では、一つの音声ファイルに対して、N人までのユーザのユーザIDを関連付けることができる。例えばある音声ファイルに記録された会話の当事者である医師と患者以外はその音声ファイルにアクセスできないようにする場合、その音声ファイルに対し、ユーザID(1)とユーザID(2)のフィールドに医師と患者のユーザIDを設定し、ユーザID(3)〜ユーザID(N)のフィールドは空欄とすればよい。患者の家族も音声ファイルにアクセス可能とするには、患者の家族のユーザIDをユーザID(3)〜ユーザID(N)のフィールドのいずれかに設定する。カウンセリング内容を示す情報は、音声ファイルに記録された音声の内容を示す情報の一例であり、予め定められた項目について所定のフォーマットで記述したものでもよいし、文章として記述されたものでもよい。
図6は、ユーザ端末30の構成の一例を示すブロック図である。本実施形態において、ユーザ端末30は、制御部31と、記憶部32と、通信部33と、表示部34と、操作部35と、放音部36とを備えている。ユーザ端末10は、例えば、放音機能を備えたパーソナルコンピュータや携帯電話等の移動端末であってよい。
制御部31は、CPUと、ROMと、RAMとを備えており(図示せず)、CPUがROMや記憶部32に記憶されている制御プログラムを実行することによってユーザ端末30の各部を制御する。記憶部32は、例えばHDDやフラッシュメモリーなどの不揮発性の記憶装置であり、各種のプログラムやデータを記憶する。通信部33は、通信回線100を介して外部装置と通信するためのインタフェースである。表示部34は、例えば液晶表示装置であり、制御部31の制御の下、文字や画像などを表示する。操作部35は、表示部34の表示面に重ねて配置される透明のタッチパネルや複数の操作キーを備え、タッチパネルや操作キーを介して入力されるユーザからの指示を受け付ける。放音部36は、スピーカやイヤフォンなどであり、制御部31から供給される音信号を音に変換して出力する。
次に、図7及び図8に示すシーケンス図を参照しながら、音声記録システム1の動作例について説明する。以下の説明では、第1収音装置10aにおいて医師と患者の会話を収音し、収音した会話を記録した音声ファイルをサーバ20の記憶部22に格納するものとする。尚、音声ファイルの形式は、WMA、MP3、AACなど任意である。
図7において、患者に対してカウンセリングを行う医師は、録音開始前に、操作部15aを用いて患者のユーザIDを入力する(ステップS1)。このとき、医師の名前、カウンセリング内容を示す情報、患者以外に音声ファイルにアクセス可能とすべきユーザ(例えば、患者の家族)のユーザID等の付属情報を合わせて入力してもよい。尚、これらの情報は、音声ファイルが生成された後に入力または変更してもよい。
ステップS1でカウンセリングを受ける患者のユーザID等が入力された後、操作部15aを通じて医師による録音開始の操作を受け付けると(ステップS2)、第1収音装置10aは第2収音装置10bに対し録音開始の指示があったことを通知するとともに(ステップS3)、空間Aにおいてなされる医師と患者の会話のマイクロフォン16aによる収音を開始する(ステップS4)。また、第2収音装置10bは、第1収音装置10aからの録音開始の通知を受信すると、空間Aに隣接した空間Bにおいて生成される音のマイクロフォン16bによる収音を開始する(ステップS5)。ここで、空間Bにおいて生成される音には、例えば、空間Bにおいて別の医師と患者の間でなされる会話や、空間B内に設置されたテレビなどの機器から発せられる音声など、空間A内の医師及び患者の音声以外の音が含まれる。また、本実施形態の説明では、空間Bで生成された音の一部は空間Aへ漏れて、第1収音装置10aによって収音されることを想定している。尚、ステップS3において第1収音装置10aから録音開始の通知を受信した時点で、既に第2収音装置1bにおいて収音が実行中の場合は(例えば、空間Bでなされる医師と患者の会話を録音するべく当該医師によって第2収音装置10bによる収音が開始された場合)、ステップS5の収音開始は省略される。要は、第1収音装置10aによる収音がなされる間に同時に第2収音装置10bによる収音がなされればよい。尚、空間Aにおいてなされる医師と患者の会話は、話者から発せられる音声の一例であり、空間Aに隣接した空間Bにおいて生成される音は、第1音信号生成装置による話者の音声の収音期間に生成されその一部が第1音信号生成装置によって収音される話者の音声以外の音の一例である。
収音を開始すると、第1収音装置10aはマイクロフォン16aで収音した音を表す第1音信号を生成する(ステップS6)。第1音信号には、空間A内の医師及び患者の会話音声を表す信号成分に加えて、空間B内で生成された音に起因する信号成分が含まれる。一方、第2収音装置10bはマクロフォン16bで収音した音を表す第2音信号を生成し(ステップS7)、生成した第2音信号を第1収音装置10aに送信する(ステップS8)。
第1収音装置10aでは、制御部11の信号加工部17によって、第2収音装置10bから受信した第2音信号を用いて第1音信号を加工し、第1音信号に含まれる空間A内の医師及び患者の音声以外の音(この例では、空間B内で生じた音)に起因する音信号成分を除去または低減する(ステップS9)。これは、例えば、第2収音装置10bから受信した第2音信号をk倍(0<k<1)し、位相を反転した後、第1音信号に加えることによりなされる。kの値は、第1収音装置10aと第2収音装置10bのそれぞれの位置、空間B内の音源の位置、マイクロフォン16a、16bの音響特性(指向性や周波数特性など)、空間Aと空間Bの間の仕切りの遮音特性などに応じて決定される。また、マイクロフォン16aと空間B内の音源との間の距離がマイクロフォン16bと空間B内の音源との間の距離より大きく、その差が無視できない場合は、第2音信号をk倍して反転した後、当該距離の差に応じて決定される遅延時間tだけ遅らせて第1音信号に加えてもよい。更に、マイクロフォン16a、16bの音響特性や仕切りの遮音特性等に応じて、第2音信号の周波数特性を補正する処理(例えば、高音を強めるまたは弱めるなど)を加えてもよい。
ステップS10で、操作部15aを通じて録音終了の操作を受け付けると、第1収音装置10aは第2収音装置10bに対し録音終了の指示があったことを通知するとともに(ステップS11)、マイクロフォン16aによる収音を終了する(ステップS12)。また、第2収音装置10bは、第1収音装置10aから録音終了の通知を受信すると、マイクロフォン16bによる収音を終了する(ステップS13)。ただし、第2収音装置10bによる収音が、ステップS3における第1収音装置10aからの録音開始の通知に応じて始められたものでない場合は、収音を終了することなく続行してもよい。
収音を終了すると、第1収音装置10aは加工した第1音信号を音声ファイルとして記憶部12aまたは制御部11aのRAMに格納するとともに(ステップS14)、当該音声ファイルをステップS1で入力されたユーザID等の付属情報とともにサーバ20に送信する(ステップS15)。
サーバ20は、音声ファイル及びユーザID等の付属情報を受信すると(ステップS16)、受信した情報を記憶部22に格納する。このとき、音声ファイルのファイル名と、ユーザID等の付属情報は、関連付けられて図5に示した音声ファイル管理テーブル26に格納される(ステップS17)。
図8において、操作部35を通じてユーザ(例えば、患者)によるサーバ20へのアクセス要求の操作を受け付けると(ステップS21)、ユーザ端末30はサーバ20に対しアクセス要求を送信する(ステップS22)。サーバ20へのアクセス要求の操作は、例えば、ユーザ端末30上でブラウザソフトを起動し、ブラウザ画面のURL入力欄にサーバ20のURLを入力することによってなされる。ユーザ端末30がカメラ機能付き携帯電話の場合、患者へ渡す薬を入れた袋などにサーバ20のURLを示すQRコードを印刷しておき、このQRコードをユーザ端末30のカメラ機能を用いてユーザ端末30に読み取らせることで、ユーザ端末30から自動的にサーバ20へのアクセス要求が送信されるようにしてもよい。
アクセス要求を受信したサーバ20は、記憶部22から認証画面データを読み出し(ステップS23)、認証画面データをユーザ端末30に送信する(ステップS24)。ここで、認証画面データとは、ユーザがサーバ20にアクセスする権限を有するかどうかの判定(認証)を行うための情報として、ユーザIDとパスワードの入力を促す画面である。
ユーザ端末30は、認証画面データを受信すると、当該データに基づいて認証画面を表示部34に表示する。ユーザによる操作部35を用いたユーザID及びパスワードの入力を受け付けると(ステップS25)、ユーザ端末30は受け付けたユーザID及びパスワードをサーバ20に送信する(ステップS26)。
サーバ20の認証部24は、ユーザ端末30から受信したユーザID及びパスワードをユーザ情報管理テーブル25に格納されたユーザID及びパスワードと照合することで、ユーザがサーバ20へのアクセス権限を有する正規のユーザであるか判定する(ステップS27)。ステップS27でユーザにアクセス権限があると判定された場合(この状態をユーザがサーバにログインした状態ともいう)、サーバ20は、記憶部22に格納された音声ファイル管理テーブル26から認証されたユーザがアクセス可能な音声ファイルに関する情報を抽出して、抽出した情報を用いて当該ユーザに対応したメニュー画面データを作成し(ステップS28)、作成したメニュー画面データをユーザ端末30に送信する(ステップS29)。メニュー画面データを受信したユーザ端末30は、当該データに基づくメニュー画面を表示部34に表示する。
図9に、ユーザ端末30に表示されるメニュー画面の一例を示す。図9の例は、ユーザIDが000001のユーザに対するメニュー画面を示している。ユーザがメニュー画面に表示された日付け、担当医師、カウンセリング内容のいずれかの表示欄にタッチし(選択操作)、続いてメニュー画面内の「再生」ソフトボタンをタッチすると、ユーザ端末30はその選択操作を受け付け(ステップS30)、選択操作の内容を表す情報をサーバ20に送信する(ステップS31)。ユーザによる選択操作の受け付けは、例えば、ユーザがメニュー画面内の日付け、担当医師、またはカウンセリング内容の表示欄にタッチするのを操作部35のタッチパネルで検知することでなされる。また、選択操作の内容を表す情報(選択操作情報)としては、例えば、ユーザがタッチした位置を示す座標を用いることができる。
サーバ20は、ユーザ端末30から受信した選択操作情報に基づき、メニュー画面の中でユーザが選択した項目を特定し(例えば、日付け「2010年9月8日」)、更に、特定された項目に対応する音声ファイルを、図5に示した音声ファイル管理テーブル26を参照することで特定して、特定した音声ファイルを記憶部22から読み出す(ステップS32)。読み出された音声ファイルは、ユーザ端末30に送信され(ステップS33)、ユーザ端末30は受信した音声ファイルに記録された音信号を放音部36で音に変換することで会話音声を再生する(ステップS34)。
上述したように、本実施形態では、第1収音装置10aは、空間Aにおける医師と患者の会話音声を収音して当該音声を表す第1音信号を生成するとともに、空間Aに隣接した空間Bにおいて生成される、空間Aにおける医師と患者の会話音声以外の音を表す音信号(第2音信号)を第2収音装置10bから受信して、第1音信号に含まれる空間A内の医師と患者の会話音声以外の音に起因する音信号成分が除去または低減されるように、第1音信号を第2音信号に基づいて加工し、加工された第1音信号をサーバ20に送信してサーバ20の記憶部22に格納するので、目的の音声を損なうことなく不要な音(空間Bにおいて生成された音)を除去または低減して記録することができる。従って、目的の音声をクリアに再生することができるとともに、隣接する空間(空間B)でなされた他人のカウンセリングの内容が記録されるのを防止できる。
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。また、以下の変形例を組み合わせてもよい。
(変形例1)
上述した実施形態においては、第1収音装置10aが信号加工部17aを有し、当該第1収音装置10aが収音した空間Aにおける医師と患者の会話音声を表す第1音信号を、空間Aに隣接した空間Bにおいて生成された音を表す第2収音装置10bからの第2音信号に基づき加工し、第1音信号に含まれる不用な音信号成分(空間Bにおいて生成された音に起因する音信号成分)が除去または低減された加工済み第1音信号を生成し、サーバ20に送信した。しかしながら、本発明はこれに限定されず、第2音信号に基づく第1音信号の加工をサーバ20で行って、第1音信号に含まれる不用な音信号成分を除去または低減してもよい。
図10は、変形例1に係る音声記録システム1のサーバ20の構成を示すブロック図である。図10において、図3と共通する部分には同じ符号を付して詳しい説明を省略する。図10に示したサーバ20では、制御部21が信号加工部27を備え、記憶部22には収音装置情報28が格納される。信号加工部27は、第1収音装置10aが収音した音を表す第1音信号(第1音声ファイル)を、第2収音装置10bが収音した音を表す第2音信号(第2音声ファイル)に基づいて加工する。収音装置情報28は、第1収音装置10a及び第2収音装置10bの各々の位置、マイクロフォン16a、16bの音響特性など、第2音信号に基づく第1音信号の加工に必要な情報を格納する。尚、変形例1においては、収音装置10a及び10bは信号加工部17を有さなくてよい。
図11は、変形例1に係る音声記録システム1の動作を示すシーケンス図である。図11において、図7と共通する部分には同じ符号を付して詳しい説明を省略する。図7において、ステップS1〜S13は、図3のステップS1〜S13と概ね同じであるが、図7のシーケンス図では、ステップS8(第2収音装置10bから第1収音装置10aへの第2音信号の送信)及びステップS9(第1収音装置10aにおける第2音信号に基づく第1音信号の加工)が含まれない点が異なる。
図11のシーケンス図において、ステップS12で収音を終了した後、第1収音装置10aは、収音した音を表す第1音信号を第1音声ファイルとして記憶部12aまたは制御部11aのRAMに格納するとともに(ステップS41)、第1音声ファイルをサーバ20に送信する(ステップS43)。このとき、第1収音装置10aは、患者のユーザIDなどの録音開始前に医師が入力した付属情報に加えて、マイクロフォン16aの位置情報、マイクロフォン16aの音響特性などの音信号加工に必要な情報を第1音声ファイルと共にサーバ20に送信する。尚、マイクロフォン16aは空間A内に固定されていてもよく、あるいは、例えば第1収音装置10aが携帯電話などの移動端末からなる場合、マイクロフォン16aは第1収音装置10aに一体に設けられ、第1収音装置10aと共に移動可能なものであってもよい。その場合、マイクロフォン16aの位置は、第1収音装置10aが備える、例えばGPS(Global Positioning System)を用いた位置情報取得機能によって取得するとよい。
また、第2収音装置10bは、ステップS13で収音を終了した後、収音した音を表す第2音信号を第2音声ファイルとして記憶部12bまたは制御部11bのRAMに格納するとともに(ステップS42)、第2音声ファイルをサーバ20に送信する(ステップS44)。このとき、第2収音装置10bは、マイクロフォン16bの位置情報、マイクロフォン16bの音響特性などの音信号加工に必要な情報を第2音声ファイルと共にサーバ20に送信する。
サーバ20が第1音声ファイル、第2音声ファイル、ユーザID、マイクロフォン16a、16bの位置情報等を受信した後(ステップS45)、サーバ20の信号加工部27は、第2音声ファイルを用いて第1音声ファイルを加工する(ステップS46)。具体的には、第1音声ファイルに記録された第1音信号を、第2音声ファイルに記録された第2音信号に基づいて加工し、第1音信号に含まれる目的の医師と患者の会話音声以外の音に起因する音信号成分を除去または低減する。この第1音信号の加工処理は、第1収音装置10aにおける録音終了後に音声ファイルとして送信されてきた第1音信号に対して処理を行うという点以外は、図7のステップS9において第1収音装置10aで行う第1音信号に対する加工処理と同じである。
ステップS47で、サーバ20は、加工済み第1音声ファイル(即ち、加工済み第1音信号を含む音声ファイル)をユーザID等の付属情報とともに記憶部22に格納する。
尚、第1収音装置10a及び第2収音装置10bからサーバ20への音信号の送信は録音終了後に音声ファイルを送信する方式に限らず、録音中にリアルタイムで第1収音装置10a及び第2収音装置10bから音信号をサーバ20へ送信してもよい。その場合、サーバ20による第1音信号の加工は、音信号の受信と同時にリアルタイムで行ってもよいし、或いは、録音終了後に行ってもよい。サーバ20において第1音信号の加工を、音信号の受信と同時にリアルタイムで行う場合、第1音信号の加工に必要な情報(マイクロフォン16a、16bの位置情報、マイクロフォン16a、16bの音響特性など)は、加工処理の開始に先立って(例えば、第1収音装置10aによる録音開始操作の受け付け(ステップS2)と収音開始(ステップS4、S5)の間)、第1収音装置10a及び第2収音装置10bからサーバ20に送信される。
(変形例2)
上述した実施形態においては、第1収音装置10aが収音した空間A内の医師と患者の会話音声を表す第1音信号を、空間Aに隣接した空間Bにおいて生成された音を表す第2収音装置10bからの第2音信号に基づき加工し、第1音信号に含まれる空間B内で生じた音に起因する音信号成分を除去または低減した。しかしながら、本発明において、除去または低減される不要な音は、隣接した空間Bにおいて生成される音に限られない。
図12は、変形例2に係る音声記録システム1の構成を示すブロック図である。図12において、図1と共通する部分には同じ符号を付して詳しい説明を省略する。図12の音声記録システム1は、マスキング効果を利用して医師と患者の会話を第三者に聞こえにくくするマスカ音を生成するマスカ音生成装置40を有する。マスキング効果とは、ある音(対象音)が聞こえているときに対象音に近い音響特性(周波数特性など)を持つ別の音(マスカ音)が存在すると、その対象音が聞こえにくくなるという現象である。マスカ音生成装置40は、例えば、空間A内の医師と患者の会話音声を取得し、取得した音声を所定のフレームに分割し、各フレーム内で時間的に逆に再生することにより音声を無意味化しマスカ音を生成する。あるいは、音響特性の異なる複数のスクランブル音信号(言語としての意味が判別できないよう処理された音信号)を用意しておき、取得した会話音声の音響特性に類似した音響特性を有するスクランブル音信号をマスカ音として出力してもよい。マスカ音生成装置40におけるマスカ音の生成方法は任意である。このように、マスカ音生成装置40からマスカ音を生成する場合、生成されたマスカ音が回り込んで第1収音装置10aのマイクロフォン16aによって収音され、目的の音声である医師と患者の会話音声が聞き取りにくくなる場合がある。
図12の音声記録システム1では、マスカ音生成装置40は通信回線100に接続されており、通信回線100を介して第1収音装置10a及びサーバ20と通信可能となっている。
図13は、変形例2に係る音声記録システムの動作を示すシーケンス図である。図13において、図7と共通する部分には同じ符号を付して詳しい説明を省略する。図13のシーケンス図において、ステップS3で第1収音装置10aから録音開始の通知を受信すると、マスカ音生成装置40は、空間A内の医師と患者の会話が外部の第三者に聞き取られにくくなるように、マスカ音の生成を開始する(ステップS51)。マスカ音生成時、マスカ音生成装置40は出力されるマスカ音を表すマスカ音信号を生成し(ステップS52)、このマスカ音信号を第1収音装置10aに送信する(ステップS53)。マスカ音信号は、マスカ音の特性及びマスカ音の生成期間等を示す。
第1収音装置10aは、マスカ音生成装置40から受信したマスカ音信号を用いてマイクロフォン16aで収音した音を表す第1音信号を加工し、第1音信号に混入したマスカ音に起因する音信号を除去または低減する(ステップS54)。即ち、この変形例では、マスカ音生成装置40からのマスカ音信号が、第1収音装置10aが収音すべき目的の音声以外の音を表す第2音信号に対応する。
ステップS10で、操作部15aを通じて録音終了の操作を受け付けると、第1収音装置10aはマスカ音生成装置40に対し録音終了の指示があったことを通知する(ステップS11)。第1収音装置10aから録音終了の通知を受信したマスカ音生成装置40は、マスカ音の生成を終了する(ステップS55)。
尚、変形例2において、マスカ音生成装置40を、マスカ音以外の音(例えば、BGMなど)を生成するとともに、生成される音を表す音声信号を第1収音装置10aに対して送信可能な別の放音装置に置き換えてもよい。この場合も、第1収音装置10aは、別の放音装置から受信した音声信号を用いてマイクロフォン16aで収音した音を表す第1音信号を加工し、第1音信号に混入した別の放音装置から生成された音に起因する音信号を除去または低減することができる。また、マスカ音生成装置40からマスカ音信号を第1収音装置10aではなくサーバ20に送信し、サーバ20において、マスカ音信号を用いた第1音信号の加工を行ってもよい。
(変形例3)
図1において点線で示すように、音声記録システム1は、サーバ20に接続された別のサーバ50を有してもよい。サーバ50は、ユーザIDに関連づけて患者の電子カルテ、通院履歴等のユーザ情報を格納したサーバである。
本変形例に基づく音声記録システム1において、サーバ20は、ユーザからのアクセス要求に応じてユーザ認証を行った後、正規のユーザと判定された場合、そのユーザのユーザIDを用いてサーバ50にアクセスし、電子カルテや通院履歴などの当該ユーザに関連するデータを読み出して、図9に示したユーザのメニュー画面に表示する。これにより、ユーザは音声ファイルにアクセスする際に関連するユーザ情報を併せて確認できるため、ユーザの利便性が高まる。尚、サーバ50は、通信回線100を介してサーバ20と通信可能となっていてもよい。
(変形例4)
音声ファイル管理テーブル26に格納される情報は、図5に示した情報に限定されず、別の情報を格納してもよい。例えば、ある音声ファイルに関連付けられた各ユーザ(ユーザID)毎にユーザが音声ファイルにアクセスしたか否かを示すフラグ(例えば、1はアクセスしたことを示し、0は未アクセスであることを示す)を格納し、音声ファイルの生成から予め定められた時間が経過してもその音声ファイルにアクセスしていないユーザに対しては、メールなどで未アクセスであることを通知してもよい。或いは、未アクセスの音声ファイルがあるユーザに対しては、所定の情報の閲覧を制限するなど、音声ファイルのアクセス状態に応じて、サーバ20がユーザに提供するサービスに制限を設けてもよい。
(変形例5)
上述した実施形態においては、音声記録システム1は、2つの収音装置10a、10bを有するが、本発明はこれに限定されず、収音装置の数は3以上でもよい。例えば、音声記録システム1が、空間Aに隣接する空間Bとは別の空間Cで生成される音を収音する第3収音装置10c(図示せず)を更に有する場合、第1収音装置10aが収音した音を表す第1音信号を、第2収音装置10bが収音した音を表す第2音信号及び第3収音装置10cが収音した音を表す第3音信号に基づいて加工してもよい。
(変形例6)
上記実施形態では、患者に渡す薬を入れた袋などにサーバ20のURLを示すQRコードを印刷したが、本発明はこれに限定されない。例えば、サーバ20のURLを示すQRコードの代わりに、カウンセリングにおいてなされた会話を記録した音声ファイルの格納場所を示すURLを表すQRコードを印刷してもよい。その場合も、サーバ20は、アクセス要求に応じてユーザの認証を行うが、認証後にユーザがアクセスできるファイルは当該URLで示された格納場所にある音声ファイルのみに限定してもよい。
(変形例7)
上述した実施形態においては、音声記録システム1を、医療機関における医者と患者の会話を記録する場合に用いた。しかしながら、本実施形態の音声記録システム1の用途は、医療機関での医者と患者の会話の記録に限定されない。例えば、薬局や銀行のカウンターのように、隣接するカウンターとカウンターの距離が比較的近い場合に、各カウンターに収音装置10を設置し、各収音装置10が対応するカウンターでなされる会話音声を収音するようにしてもよい。この場合も、各収音装置10が生成する音信号を隣接する収音装置が生成する音信号に基づいて加工することで、不要な音信号成分(隣接するカウンターでの会話に起因する音信号成分)を除去または低減させることができる。また、各収音装置10は3人以上の話者の音声を収音してもよいし、一人の話者の音声を収音してもよい。
尚、音声記録システム1を医療機関での医者と患者の会話の記録以外の用途に用いる場合、図5に示した音声ファイル管理テーブル26の内容も、その用途に合わせて適宜変更される。例えば、音声記録システム1を銀行窓口において顧客と説明員の会話の記録に用いる場合、音声ファイル管理テーブル26には、音声ファイルに記録された音声の内容を示す情報として、説明した金融商品の種類(定期預金、外貨預金、住宅ローンなど)や、顧客の性別、顧客の年齢、顧客の年収等が格納される。
(変形例8)
上述した実施形態においては、ユーザ端末30上でブラウザソフトを起動し、ブラウザソフトを用いてサーバ20にアクセスするものとしたが、本発明はこれに限定されない。例えば、ユーザ端末30が携帯電話の場合、ユーザ端末30から予め定められた電話番号に電話をすることで、サーバ20にアクセスするようにしてもよい。
(変形例9)
上述した実施形態においては、第1収音装置10aが収音した空間Aにおける医師と患者の会話音声を表す第1音信号を加工し、第1音信号に含まれる不用な音信号成分(例えば、空間Aに隣接する空間Bにおいて生成された音に起因する音信号成分)が除去または低減された加工済み第1音信号(音声ファイル)を生成して、ユーザからアクセス可能なようにサーバ20の記憶部22に格納したが、ユーザが関心のある情報のみを含むように音声ファイルを再構成し、再構成した音声ファイルをサーバ20の記憶部22に格納してもよい。この音声ファイルの再構成は、例えば、音声ファイルが記憶部22に格納された後、ユーザからのリクエストに応じて行ってもよいし、或いは、ユーザからのリクエストなしに、自動で行ってもよい。ユーザによる音声ファイル再構成のリクエストは、例えば、ユーザがユーザ端末30を操作してサーバ20にログインしたときにユーザ端末30に表示されるメニュー画面に「再構成」ソフトボタンを設け(図17参照)、ユーザがタッチ操作により音声ファイルを選択して、「再構成」ソフトボタンをタッチしたことをユーザ端末30の操作部35のタッチパネルで検出し、その操作内容を示す情報をユーザ端末30からサーバ20に送信することによりなされる。尚、ユーザが「再構成」ソフトボタンにタッチしたとき、再構成元の音声ファイルを示す情報(例えば、日付けと担当医師など)をユーザ端末30に表示して、ユーザが確認できるようにしてもよい。
図14は、変形例9に係るサーバ20の構成を示すブロック図である。図14において、図3と共通する部分には同じ符号を付して詳しい説明を省略する。図14のサーバ20の制御部21は、音信号(音声ファイル)を再構成する再構成部100として機能する。また、記憶部22には、音声ファイルの再構成において用いられるキーワードデータベース29が格納されている。
図15は、キーワードデータベース29の一例を示す模式図である。図15(A)は、医療カウンセリングを受けたユーザが登録したキーワードの例を示しており、図15(B)は、金融商品の説明を受けたユーザが登録したキーワードの例を示している。図15(A)及び(B)に示すように、キーワードデータベース29には、各ユーザごとに1または複数のキーワードが登録され、各キーワードには重要度が割り当てられている。この例では、各キーワードに重要度として1〜3の数値が割り当てられ、数値が大きいほど重要度が高いものとする。キーワードの登録、重要度の割り当て及びそれらの変更は、例えば、サーバ20にログインした状態で、各ユーザがユーザ端末30を操作することにより行うことができる。
図16は、再構成部100の構成を示すブロック図である。再構成部100は、音声ファイル特定部101と、分割部102と、ユーザ特定部103と、キーワード取得部104と、抽出部105と、結合部106とを有する。
音声ファイル特定部101は、再構成を行う音声ファイルを特定する。より具体的には、音声ファイル特定部101は、再構成を行う音声ファイルを特定する音声ファイル特定情報を取得する。例えば、ユーザリクエストに応じて再構成を行う場合、音声ファイル特定部101は、ユーザ端末30の操作によってユーザが選択した音声ファイルのファイル名(または、その格納場所を示す情報)を、再構成対象の音声ファイルを特定する音声ファイル特定情報として取得する。音声ファイルが記憶部22に格納された後、ユーザからのリクエストなしに、自動で再構成を行う場合は、その記憶部22に新たに格納された音声ファイルのファイル名(または、その格納場所を示す情報)を、再構成対象の音声ファイルを特定する情報として取得する。
分割部102は、記憶部22に格納された音声ファイルから、音声ファイル特定部101が取得した音声ファイル特定情報によって特定される音声ファイル(例えば、図5の音声ファイルXXX.WMA)を読み出し、読み出した音声ファイルを複数の部分(以下、音声ブロックという)に分割する。この音声ファイルの分割は、例えば、無音部分が予め定められた時間(例えば1秒)続いた箇所で分割する、分割により生成される各音声ブロックの長さが予め定められた長さ(例えば30秒)となるように分割する、あるいは、音声ファイルに対して音声認識を行い音声に含まれる文節を特定し、文節単位で分割する、というように様々な方法で行うことができる。
ユーザ特定部103は、どのユーザの登録キーワードを用いて音声ファイルの再構成を行うかを特定する。より具体的には、ユーザ特定部103は、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報を取得する。例えば、音声ファイルの再構成がユーザリクエストに応じてなされる場合、ユーザ特定部103は、再構成をリクエストしたユーザのユーザIDを、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報として取得する。再構成が自動でなされる場合、ユーザ特定部103は、例えば、再構成対象の音声ファイルに会話が記録された患者(例えば、音声ファイルXXX.WMAの場合、ユーザIDが000001のユーザ)のユーザIDを、登録キーワードが音声ファイルの再構成に用いられるユーザを特定するユーザ特定情報として取得する。
キーワード取得部104は、記憶部22に格納されたキーワードデータベース29から、ユーザ特定部103が取得したユーザ特定情報によって特定されるユーザの登録キーワードを取得する。
抽出部105は、分割部102によって生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、キーワード取得部104によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する。
結合部106は、抽出部105によって抽出された音声ブロックを結合して再構成された音声ファイル(音信号)を生成する。抽出した音声ブロックを結合する際、結合部106は、音声ブロック間の時間的順序を保ったまま結合してもよいし、あるいは、順序を入れ替えて結合してもよい。例えば、抽出された各音声ブロックに含まれる1または複数のキーワードに割り当てられた重要度の合計値をその音声ブロックの重要度とし、重要度の高い順に音声ブロックを並べ替えて結合する。あるいは、抽出された各音声ブロックに含まれる1または複数のキーワードに割り当てられた重要度のうち最大値をその音声ブロックの重要度として、重要度に応じた並べ替えを行ってもよい。音声ブロックに含まれるキーワードに基づいてどのようにして音声ブロックの重要度を決定するかは任意である。抽出された音声ブロックの数が予め定められた数より多い場合や、抽出された音声ブロックの時間の合計が予め定められた長さより長い場合、重要度の低い音声ブロックを結合対象から除外、即ち、再構成された音声ファイルに含まれないようにしてもよい。尚、上記した予め定められた数及び予め定められた長さは、ユーザがユーザ端末30の操作部35を操作することによって指定/変更可能であってもよい。即ち、ユーザが操作部35を操作することで、結合される音声ブロックの予め定められた数または結合される音声ブロック(即ち、再構成される音声ファイル)の予め定められた長さをパラメータとして設定できるようにしてもよい。この場合、ユーザ端末30はユーザによって設定されたパラメータをサーバ20へ送信し、サーバ20では、受信したパラメータに応じて、上記したように、結合部106によって結合される音声ブロックが変化する。これにより、再構成された音声ファイルの長さを、ユーザが設定したパラメータに応じて変えることができる。尚、ユーザによって設定されるパラメータは、上記のものに限定されない。例えば、音声ブロックの重要度の高低の基準となる閾値をパラメータとしてユーザが設定可能とし、結合部106は、設定された閾値より高い重要度の音声ブロックを結合して再構成された音声ファイルを生成してもよい。
制御部21は、結合部106によって生成された再結合された音声ファイルを、記憶部22に格納するとともに、図5に示した音声ファイル管理テーブル26に、再構成された音声ファイルのファイル名を、関連する情報(日付け、担当医師、再構成された音声ファイルにアクセス可能なユーザのユーザIDなど)と共に格納する。尚、再構成された音声ファイルに関連付けて音声ファイル管理テーブル26に格納される日付け、担当医師、カウンセリング内容は、元の音声ファイルと同じである。また、再構成された音声ファイルに関連付けて音声ファイル管理テーブル26に格納されるユーザIDは、元の音声ファイルと同じとしてもよいし、例えば再構成をリクエストしたユーザの指示に基づいて変更してもよい。
再構成された音声ファイルは、ユーザがユーザ端末30の操作によりサーバ20にログインしたとき、ユーザ端末30に表示されるメニュー画面において、ユーザが選択可能なように表示される。図17にメニュー画面の一例を示す。図17の例は、ユーザIDが000001のユーザに対するメニュー画面を示している。この例では、2010年9月8日に行われたカウンセリングを記録した音声ファイル(XXX.WMA)を再構成した音声ファイルが再構成部100によって生成され、メニュー画面において元の音声ファイルと区別して表示されている。具体的には、図17に示したメニュー画面では、「ファイル種別」欄が設けられ、再構成された音声ファイルでは、そこに「再構成1」と表示されており、元の音声ファイルでは空欄となっている。尚、例えば、一つの音声ファイルに対し複数のユーザ(例えば、患者本人とその家族)が再構成をリクエストした場合のように、一つの音声ファイルに対し複数の再構成された音声ファイルが生成される場合、それらの複数の再構成された音声ファイルに対する「ファイル種別」欄の表示を「再構成1」、「再構成2」、・・・のように異ならせることで、これら複数の再構成された音声ファイルをユーザが区別できるようにするとよい。また、それぞれの再構成された音声ファイルがどのような条件で生成されたかを示す情報(例えば、再構成元の音声ファイルの作成日、担当医師名、再構成に用いられたキーワードなど)を、再構成された音声ファイルの属性情報としてメニュー画面において表示してもよい。
再構成された音声ファイルが生成される場合、例えば、患者へ渡す薬を入れた袋などに、元の音声ファイルの格納場所を示すURLを表すQRコードだけでなく、再構成された音声ファイルの格納場所を示すURLを表すQRコードを印刷することで、ユーザが再構成した音声ファイルに容易にアクセスできるようにしてもよい。
図18は、変形例9に係るサーバ20の音声ファイル再構成に関する動作を示すフローチャートである。ユーザ端末30から音声ファイル再構成のリクエストを受け取ると、サーバ20の制御部21は音声ファイルの再構成動作を開始する。あるいは、音声ファイルの再構成を自動で行うよう設定されている場合、新たな音声ファイルが生成されて記憶部22に格納されるのに応じて、音声ファイルの再構成動作を開始してもよい。音声ファイルの再構成動作を開始すると、制御部21は、再構成すべき音声ファイルを特定する(ステップS50)。即ち、制御部21は、音声ファイル特定部101として機能する。ユーザリクエストに応じて再構成を行う場合、制御部21は、ユーザ端末30の操作によってユーザが選択した音声ファイルを、再構成対象の音声ファイルとして特定し、音声ファイルが記憶部22に格納された後、自動で再構成を行う場合は、その記憶部22に新たに格納された音声ファイルを、再構成対象の音声ファイルとして特定する。
続いて、制御部21は、ステップS50で特定された音声ファイルを記憶部22から読み出し(ステップS51)、読み出した音声ファイルを音声ブロックに分割する(ステップS52)。即ち、制御部21は、分割部102として機能する。
ステップS53において、制御部21は、どのユーザの登録キーワードを用いて音声ファイルの再構成を行うかを特定する。即ち、制御部21は、ユーザ特定部103として機能する。
続いて、制御部21は、ステップS53で特定されたユーザの登録キーワードを、記憶部22に格納されたキーワードデータベース29から取得する(ステップS54)。即ち、制御部21は、キーワード取得部104として機能する。
ステップS55において、制御部21は、ステップS52で生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、ステップS54で取得した登録キーワードを少なくとも一つ含む音声ブロックを抽出する。即ち、制御部21は、抽出部105として機能する。
続いて、制御部21は、ステップS55で抽出した音声ブロックを結合して再構成された音声ファイルを生成する(ステップS56)。即ち、制御部21は、結合部106として機能する。生成された再結合された音声ファイルは、記憶部22に格納される(ステップS57)。
尚、図18の例では、ステップS53及びS54(登録キーワードを用いるユーザの特定及び登録キーワードの取得)を、ステップS50〜S52(音声ファイルの特定、読出し、及び分割)の後に行っているが、本発明はそれに限定されず、ステップS53及びS54をステップS50〜S52の前に行ってもよい。要は、ステップS55の音声ブロックの抽出の前に、音声ファイルの分割及び登録キーワードの取得がなされていればよい。
上述したように、ユーザ毎に登録されたキーワードを用いて音声ファイルの必要な部分を抽出してフレキシブルに再構成した音声ファイルを生成することにより、各ユーザが自分が関心のある部分のみを短時間に聞くことが可能となる。また、音声ファイルを再構成する際に、再構成された音声ファイルの長さがユーザが指定した長さを越えないよう、重要度の低い音声ブロックが再構成された音声ファイルに含まれないようにする場合、ユーザは指定した時間で再構成された音声ファイルを再生しその内容を確認することができる。
(変形例10)
上述した変形例9において、ユーザ特定部103は、音声ファイルの再構成がユーザリクエストに応じてなされる場合、再構成をリクエストしたユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定したが、本発明はこれに限定されない。例えば、再構成をリクエストするユーザがユーザ端末30を操作して、自分と類似した状況の他のユーザを指定できるようにし、ユーザ特定部103は、指定された他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定してもよい。この場合、各ユーザの登録キーワードには、個人情報の保護の観点では各ユーザの個人情報(氏名、詳細な住所など)が含まれないことが望ましい。
状況が類似したユーザとは、例えば、図5に示した音声ファイル管理テーブルに格納されたカウンセリング内容を示す情報(例えば、病名、処方された薬、患者の症状、患者の性別、患者の年齢、患者の肥満度等)が類似したユーザ(患者)である。サーバ20の制御部21は、あるユーザと他のユーザのそれぞれのカウンセリング内容を示す情報に、同じ病名が含まれる場合は10ポイント、処方された薬が同じ場合は8ポイント、・・・というように、予め定められた項目について一致する場合に所定のポイントを加算することにより、これらユーザのカウンセリング内容を示す情報の類似度(状況の類似度ともいう)を計算し、状況の類似度が予め定められた値より高い場合、これらユーザを状況が類似したユーザと判定する。サーバ20の制御部21は、各ユーザのユーザ端末30に表示されるメニュー画面に、そのユーザと状況が類似した他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示させ、ユーザが音声ファイルの再構成をリクエストする際、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにする。或いは、制御部21は、各ユーザのユーザ端末30に表示されるメニュー画面に、そのユーザとの状況の類似度が高い順に降順で一覧表示する方法や、そのユーザとの状況の類似度が高い順に予め定められた人数(例えば、3人)の他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示し、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにしてもよい。タッチ操作の内容はユーザ端末30からサーバ20に送信される。ユーザ特定部103は、ユーザが選択したエリア(または、そのエリアに表示された登録キーワード)に関連付けられた他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定する。尚、各ユーザのユーザ端末30に表示されるメニュー画面には、個人情報の保護の観点では他のユーザの個人情報(例えば、氏名やユーザID)は表示されないことが望ましい。また、例えばあるユーザが複数回のカウンセリングを受け、そのユーザに対し複数個の音声ファイルが生成されている場合、最も新しい音声ファイルに関連付けられたカウンセリング内容を示す情報を用いて、他のユーザとの状況の類似度を判断してもよいし、あるいは、複数の音声ファイルに関連付けられたカウンセリング内容を示す情報を全て用いて、他のユーザとの状況の類似度を判断してもよい。更に、予め定められた数(例えば5つ)の直近の音声ファイルに関連付けられたカウンセリング内容を示す情報を用いて他のユーザとの状況の類似度を判断してもよい。このように、あるユーザに対し複数の音声ファイルが生成されている場合、他のユーザとの状況の類似度を判断するための音声ファイルの選び方は任意である。
図19は、変形例10に係るサーバ20及びユーザ端末30の動作を示すシーケンス図である。ここで、ユーザはサーバ20にログインしているものとする。操作部35を通じてユーザによる音声ファイル再構成リクエストの操作を受け付けると(ステップS60)、ユーザ端末30はサーバ20に対し再構成リクエストを送信する(ステップS61)。この再構成リクエストは、図17に示したようなメニュー画面において、ユーザがタッチ操作により音声ファイルを選択して、「再構成」ソフトボタンをタッチするのに応じて生成され、操作内容を示す情報(即ち、どの音声ファイルが選択されたかを示す情報)が含まれる。
再構成リクエストを受信したサーバ20の制御部21は、リクエスト送信元のユーザと状況が類似した他のユーザを抽出し(ステップS62)、抽出したユーザの登録キーワードの全部または一部をキーワードデータベース29から読出し(ステップS63)、状況の類似度と共にリクエスト送信元のユーザ端末30に送信する(ステップS64)。また、ステップS61で受信した再構成リクエストに含まれる情報に基づき、再構成対象の音声ファイルの特定、特定した音声ファイルの記憶部22からの読出し、及び、読み出した音声ファイルの音声ブロックへの分割を行う(ステップS65)。このステップS65の処理は、図18のステップS50〜S52の処理と同様である。
ユーザ端末30は、登録キーワード及び状況の類似度を受信すると、互いに関連付けて一覧表示する。ユーザが所望の登録キーワードが表示されたエリアをタッチ操作により選択すると、ユーザ端末30はその選択操作を受け付け(ステップS66)、選択操作の内容を表す選択操作情報をサーバ20に送信する(ステップS67)。
サーバ20の制御部21は、選択操作情報に基づき、ユーザが選択したエリア(または、そのエリアに表示された登録キーワード)に関連付けられた他のユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定し(ステップS68)、特定したユーザの登録キーワードを記憶部22から取得する(ステップS69)。尚、ステップS63において、ステップS62で抽出した他のユーザの登録キーワードを全て読み出している場合は、ステップS68及びS69を省略してもよい。
続いて、制御部21は、ステップS65で生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、ステップS69で取得した登録キーワードを少なくとも一つ含む音声ブロックを抽出し、抽出した音声ブロックを結合して再構成された音声ファイルを生成する(ステップS70)。ステップS70の処理は、図18のステップS55及びS56の処理と同様である。生成された再結合された音声ファイルは、記憶部22に格納される(ステップS71)。
このように、ユーザが指定した他のユーザの登録キーワードを用いて音声ファイルの再構成を行うことによって、ユーザ自らがキーワードの登録を行う手間を省くことができる。また、ユーザが自分で登録したキーワードを用いて音声ファイルの再構成を行う場合でも、それとは別に、他のユーザの登録キーワードを用いて同じ音声ファイルの再構成を行って、それらを再生して内容を確認することで、重要な情報の抽出漏れの可能性を低減することができる。尚、あるユーザ(ユーザA)の登録キーワードを用いて音声ファイルの再構成を行う場合に、同じ音声ファイルに対して他のユーザ(ユーザB)の登録キーワードを用いた再構成によって生成された音声ファイルが既にある場合、これらユーザA及びBの登録キーワードのうち共通するものを、再構成において用いるユーザAの登録キーワードから除いてもよい。それによって、これらユーザA及びBの登録キーワードに基づいて生成される2つの再構成された音声ファイルにおける情報の重複を減らすことができる。また、登録キーワードが音声ファイルの再構成に用いられるユーザとして、2以上のユーザを同時に指定し、これら2以上のユーザの登録キーワードを合わせて用いて音声ファイルの再構成を行ってもよい。その場合、指定された2以上のユーザの登録キーワード間で共通するキーワードに各ユーザが異なる重要度を設定しているときは、それらの最大値または平均値をそのキーワードに割り当てられた重要度として用いるとよい。或いは、指定された2以上のユーザの登録キーワード間で共通するキーワードのみを用いて音声ファイルの再構成を行ってもよい。
(変形例11)
上述した変形例9では、1つの音声ファイルを再構成して再構成された音声ファイルを生成したが、本発明はこれに限定されない。複数の音声ファイルをまとめて再構成して、1つの再構成された音声ファイルを生成してもよい。例えば、図9のメニュー画面には、ユーザIDが000001のユーザに対し日付けの異なる2つの音声ファイルが示されているが、これら2つの音声ファイルを指定して再構成のリクエストがされた場合、サーバ20の音声ファイル特定部101は、これら2つの音声ファイルを再構成される音声ファイルとして特定する。分割部102は、音声ファイル特定部101によって特定された2つの音声ファイルを記憶部22から読み出し、各音声ファイルを分割して音声ブロックを生成する。抽出部105は、2つの音声ファイルを分割して生成された音声ブロックから、キーワード取得部104によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する。結合部106は、抽出部105によって抽出された音声ブロックを結合して再構成された音声ファイル(音信号)を生成する。即ち、この場合、再構成部100は、2つの音声ファイルをまとめて再構成して1つの音声ファイルを生成する。尚、再構成元となる音声ファイルの選択は、個々に指定する場合に限定されない。例えば、指定した条件を満たす音声ファイルをまとめて再構成元の音声ファイルとして選択してもよい。例えば、再構成をリクエストするユーザが期間を指定して、作成日が指定された期間内にある音声ファイルを再構成元の音声ファイルとしてもよいし、特定の医師が行ったカウンセリング時の会話を記録した音声ファイルを再構成元の音声ファイルとしてもよい。特定の疾患についてなされたカウンセリング時の会話を記録した音声ファイルを再構成元の音声ファイルとしてもよい。このように、再構成元となる音声ファイルの選択は、様々な方法で可能である。
また、再構成される複数の音声ファイルは同一ユーザのものでなくてもよい。例えば、同じ家族に属する複数のユーザが同じ症状についてカウンセリングを受けている場合、それぞれのカウンセリング内容を記録した複数の音声ファイルをまとめて再構成してもよい。尚、音声ファイルをまとめて再構成可能なユーザは同一家族に限らず、任意に設定可能である。
また、再構成される音声ファイルは、未再構成の音声ファイルに限らず、再構成された音声ファイルを、更に再構成してもよい。例えば、複数の再構成された音声ファイルをまとめて更に再構成してもよい。
(変形例12)
上述した変形例9では、キーワードデータベース29において、キーワードの重要度の割り当て及び変更は、各ユーザがサーバ20にログインした状態でユーザ端末30を操作することにより行った。しかしながら、本発明はこれに限定されない。例えば、予め病院側で作成したキーワードリストをサーバ20の記憶部22に格納しておき、各ユーザ毎に登録されたキーワードのうち、予め作成されたキーワードリストに含まれるキーワードと一致したキーワードに高い重要度を割り当て、そうでないキーワードに低い重要度を割り当ててもよい。尚、本発明を銀行や保険会社等の金融会社の説明員が顧客に金融商品について説明する場合の会話の記録に用いる場合、金融会社で予め作成したキーワードリストを用意すればよい。また、ユーザ毎に登録された登録キーワードの代わりに、病院や金融会社が予め作成したキーワードリストを用いて音声ファイルの再構成を行ってもよい。
あるいは、各ユーザの登録キーワードに各ユーザが設定した重要度を、予め作成されたキーワードリストに含まれるキーワードに対しては所定の値だけ高め、そうでないキーワードに対しては所定の値だけ下げるというように、各ユーザの登録キーワードの重要度の割り当てをユーザによる設定と予め定められたキーワードリストの両方に基づいて行ってもよい。あるいは、多くのユーザが共通して登録しているキーワードには高い重要度を割り当て、登録しているユーザ数が少ないキーワードには低い重要度を割り当ててもよい。また、あるユーザに対して登録されているキーワードの重要度を、そのユーザと状況が類似した他のユーザ(状況が類似した他のユーザの数が、予め定められた数(例えば、100)を越える場合は、状況の類似度がより高い予め定められた数の他のユーザ)の間で、より多く共通して登録されているキーワードには高い重要度を割り当て、登録している他のユーザが少ないキーワードには低い重要度を割り当てるる、というようにして設定してもよい。
(変形例13)
上記実施形態では、音声ファイルは、音声ファイル管理テーブル26において当該音声ファイルに関連付けられたユーザIDのユーザしかアクセスできないものとしたが、本発明はそれに限定されない。例えば、あるユーザの音声ファイル(再構成されていないもの、または、再構成されたもののいずれでもよい)を、そのユーザの同意がある場合、任意のユーザからアクセス可能(即ち、任意のユーザのリクエストによって再生や再構成が可能)としてもよい。そのような任意のユーザからアクセス可能な音声ファイルに対しては、例えば、図5の音声ファイル管理テーブル26において、ユーザID(1)欄に、予め定められたユーザID(例えば、「000000」)を格納したり、あるいは、ユーザID(1)〜ユーザID(N)欄を全て空欄としたりすることによって、任意のユーザからアクセス可能であることを示すことができる。
任意のユーザからアクセス可能な音声ファイルがある場合、サーバ20の制御部21は、例えば、図8のステップ27においてユーザの認証が正常になされたとき(即ち、ユーザがサーバ20にログインしたとき)、ステップ28において、そのユーザを含む特定のユーザのみがアクセス可能な音声ファイルに関する情報だけでなく、任意のユーザからアクセス可能な他のユーザの音声ファイルに関する情報(例えば、日付け、カウンセリング内容など)を音声ファイル管理テーブル26から抽出し、抽出した情報を用いてメニュー画面データを生成する。あるいは、任意のユーザからアクセス可能な音声ファイルのうち、ログインしたユーザと状況が類似した他のユーザの音声ファイルを抽出して、抽出した音声ファイルに関する情報がユーザのログイン画面に表示されるように、メニュー画面データを生成してもよい。ユーザは、メニュー画面に表示された他のユーザの音声ファイルに関する情報の表示欄をタッチ操作することなどにより、所望の音声ファイルを選択し、再生または再構成などの所望の操作を指示する。このように、自分と状況が類似した他のユーザの音声ファイルにアクセス可能とすることにより、ユーザは、自分と状況が類似した他のユーザがどのような診断や提案をされているかを知ることができ、自分に対してなされた診断や提案を正確に評価できる。
尚、任意のユーザからアクセス可能な音声ファイルは、個人情報の保護の観点では音声ファイルに含まれる個人情報(氏名や住所など)が聞き取られないように処理されていることが望ましい。そのような個人情報の処理は、個人情報を示す音声部分を消去したり、あるいは、個人情報を示す音声部分に別の音(例えば、ビープ音や効果音)を重ねて聞き取れないようにすることによりなされる。
(変形例14)
上記した変形例9では、抽出部105は、分割部102によって生成された音声ブロックに対し音声認識を行い、これら音声ブロックの中から、キーワード取得部104によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出したが、本発明はこれに限定されない。例えば、記憶部22に様々な用語(キーワード)の各々に対し類語を記録した類語データベースを格納しておき、抽出部105は、キーワード取得部104によって取得された各キーワードの類語を類語データベースを参照することで取得し、これらキーワード及びその類語を少なくとも一つ含む音声ブロックを抽出してもよい。この場合、各類語の重要度は、対応するキーワードに割り当てられた重要度と同じとしてもよいし、あるいは、対応するキーワードに割り当てられた重要度に予め定められた値(例えば、0より大きく1より小さい値)を掛けた値としてもよい。
また、抽出部105は、分割部102によって生成された音声ブロックの中から、キーワード取得部104によって取得されたキーワードのうち、予め定められた閾値以上の重要度が割り当てられたキーワードを少なくとも一つ含む音声ブロックを抽出してもよい。尚、キーワードの重要度の閾値はユーザによって指定/変更可能であってもよい。即ち、ユーザがユーザ端末30の操作部35を操作することでキーワードの重要度の閾値を設定可能としてもよい。この場合、ユーザ端末30はユーザによって設定された閾値をサーバ20へ送信し、サーバ20では、受信した閾値に基づいて、上記したように、抽出部105によって抽出される音声ブロックが変化し、その結果、結合部106によって結合される音声ブロックが変化する。即ち、この場合、ユーザによって設定されるキーワードの重要度の閾値が、ユーザによって設定されるパラメータとして機能する。この場合も、再構成された音声ファイルの長さを、ユーザが設定したパラメータに応じて変えることができる。
(変形例15)
上記実施形態では、会話内容を記録した音声ファイル(または、再構成された音声ファイル)を、ユーザがユーザ端末30を介してアクセス可能なようにサーバ20の記憶部22に格納したが、本発明はこれに限定されない。サーバ20において音声ファイル(または、再構成された音声ファイル)に対し音声認識を行い、テキストデータを作成し、これを記憶部22に格納してもよい。また、テキストデータを印刷して例えば郵送によりユーザに送付してもよい。
また、サーバ20は、例えば音声ファイルの再生/再構成をリクエストしたユーザが登録したキーワードを用いて一般の検索エンジンを用いてインターネットまたは自身の記憶部22に格納されたデータベース上で検索を行い、これらキーワードに関連する情報を、音声ファイルまたは再構成された音声ファイルと共にユーザに提供してもよい。このとき、ユーザが登録したキーワード全てについて検索を行うのではなく、予め決められた値以上の重要度が割り当てられたキーワードについてのみ検索を行ってもよい。それにより、ユーザに提供する情報が膨大になり過ぎるのを防止することができる。
(変形例16)
上記実施形態では、音声ファイル管理テーブルに格納されたカウンセリング内容を示す情報(即ち、音声ファイルに記録された音声の内容を示す情報)が類似したユーザを、状況が類似したユーザとしたが、本発明はこれに限定されない。例えば、音声認識により、各音声ファイルのテキストデータが生成されている場合、音声ファイルのテキストデータの内容が類似したユーザを類似したユーザとしてもよい。ある音声ファイルのテキストデータと他の音声ファイルのテキストデータの類似度は、例えば、予め定められたキーワードリストに含まれるキーワードを各音声ファイルのテキストデータから抽出し、一方の音声ファイルのテキストデータから抽出されたキーワードと、他方の音声ファイルのテキストデータから抽出されたキーワードの一致の程度に基づいて判定すればよい。
また、別の方法として、各ユーザに対して登録されたキーワードが類似したユーザを、状況が類似したユーザと判断してもよい。
(変形例17)
変形例10では、サーバ20の制御装置21が、ユーザの状況の類似度を計算し、各ユーザのユーザ端末30に表示されるメニュー画面に、そのユーザと状況が類似した他のユーザの登録キーワードの全部または一部を、当該ユーザと他のユーザの状況の類似度と共に一覧表示させ、ユーザが音声ファイルの再構成をリクエストする際、ユーザが例えばタッチ操作により所望の登録キーワードが表示されたエリアを選択できるようにしたが、本発明は、これに限定されない。別の方法として、各ユーザがユーザ端末30を操作することで、サーバ20の記憶部22に記憶された他のユーザの音声ファイルに関連付けられたカウンセリング内容を示す情報を検索可能とし、各ユーザが特定の病名や薬名などの検索ワードを用いて検索することにより、検索結果として、自分と状況が類似する(即ち、カウンセリング内容を示す情報に検索ワードが含まれる)他のユーザの登録キーワードの全部または一部がユーザ端末30に一覧表示されるようにしてもよい。この場合も、ユーザ端末30に表示される検索結果には、個人情報の保護の観点では他のユーザの個人情報は含まれないことが好ましい。ユーザ端末30のユーザは、表示された検索結果から、所望の登録キーワードが表示されたエリアをタッチ操作により選択する。タッチ操作の内容はユーザ端末30からサーバ20に送信され、ユーザ特定部103は、ユーザが選択したエリア(または、そのエリアに表示された登録キーワード)に関連付けられたユーザを、登録キーワードが音声ファイルの再構成に用いられるユーザとして特定する。
1…音声記録システム、10…収音装置、11…制御部、12…記憶部、13…通信部、14…表示部、15…操作部、16…マイクロフォン、20…サーバ、21…制御部、22…記憶部、23…通信部、24…認証部、25…ユーザ情報管理テーブル、26…音声ファイル管理テーブル、27…信号加工部、28…収音装置情報、29…キーワードデータベース、30…ユーザ端末、31…制御部、32…記憶部、33…通信部、34…表示部、35…操作部、40…マスカ音生成装置、50…サーバ、100…再構成部、101…音声ファイル特定部、102…分割部、103…ユーザ特定部、104…キーワード取得部、105…抽出部、106…結合部

Claims (6)

  1. 話者から発せられた音声を収音し、収音した音声を表す第1音信号を生成する第1音信号生成装置と、前記第1音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第1音信号生成装置によって収音される前記話者の音声以外の音声を表す第2音信号を生成する第2音信号生成装置と通信可能な音声記録サーバ装置であって、
    前記第1音信号生成装置から前記第1音信号を受信し前記第2音信号生成装置から前記第2音信号を受信する受信手段と、
    前記第1音信号を前記第2音信号に基づいて加工し、前記第1音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第1音信号を生成する音信号加工手段と、
    前記加工済み第1音信号を複数の音声ブロックに分割する音信号分割手段と、
    複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、
    前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、
    前記音信号分割手段によって分割された前記加工済み第1音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、
    前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、
    前記再構成された音信号を記憶手段に格納する書き込み手段と
    を有することを特徴とする音声記録サーバ装置。
  2. 前記書き込み手段は、前記再構成された音信号を、当該再構成された音信号にアクセス可能なユーザと関連付けて前記記憶手段に格納することを特徴とする請求項1に記載の音声記録サーバ装置。
  3. 前記各ユーザに対して登録されたキーワードの各々に対して重要度が割り当てられており、
    前記結合手段は、前記抽出手段によって抽出された各音声ブロックの重要度を、各音声ブロックに含まれる前記キーワードに割り当てられた重要度に基づいて決定し、決定した重要度に基づいて、前記音声ブロックを並べ変えて結合する
    ことを特徴とする請求項1または2に記載の音声記録サーバ装置。
  4. 前記書き込み手段は、前記音信号加工手段により生成された前記加工済み第1音信号を前記記憶手段に格納し、
    当該音声記録サーバ装置は、複数の前記加工済み第1音信号が前記記憶手段に記憶されている場合、前記複数の加工済み第1音信号から2以上の第1音信号の各々を特定する音信号特定情報を取得する音信号特定手段を更に有し、
    前記音信号分割手段は、前記音信号特定手段によって取得された音信号特定情報により特定される2以上の前記加工済み第1音信号の各々を複数の音声ブロックに分割し、
    前記抽出手段は、前記2以上の前記加工済み第1音信号の各々を分割して得られた音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する
    ことを特徴とする請求項1乃至3のいずれか一項に記載の音声記録サーバ装置。
  5. ユーザにより設定されるパラメータに応じて、前記結合手段によって結合される前記音声ブロックが変化することを特徴とする請求項1乃至4のいずれか一項に記載の音声記録サーバ装置。
  6. 話者の音声を収音し、収音した音声を表す第1音信号を生成する第1音信号生成装置と、
    前記第1音信号生成装置による前記話者の音声の収音期間に生成されその一部が前記第1音信号生成装置によって収音される前記話者の音声以外の音を表す第2音信号を生成する第2音信号生成装置と
    ーザ端末、前記第1音信号生成装置、及び前記第2音信号生成装置と通信可能なサーバ装置とを有し、
    前記サーバ装置は、
    前記第1音信号を前記第2音信号に基づいて加工し、前記第1音信号に含まれる前記話者の音声以外の音に起因する音信号成分が除去または低減された加工済み第1音信号を生成する音信号加工手段と、
    前記加工済み第1音信号を複数の音声ブロックに分割する音信号分割手段と、
    複数のユーザの中からユーザを特定するユーザ特定情報を取得するユーザ特定手段と、
    前記複数のユーザの各々に対してキーワードを登録したキーワードデータベースから、前記ユーザ特定手段が取得した前記ユーザ特定情報によって特定されるユーザに対し登録されたキーワードを取得するキーワード取得手段と、
    前記音信号分割手段によって分割された前記加工済み第1音信号の前記音声ブロックの中から、前記キーワード取得手段によって取得されたキーワードを少なくとも一つ含む音声ブロックを抽出する抽出手段と、
    前記抽出手段によって抽出された前記音声ブロックを結合して再構成された音信号を生成する結合手段と、
    前記再構成された音信号を記憶手段に格納する書き込み手段と、
    前記ユーザ端末からの要求に応じて、前記再構成された音信号を前記記憶手段から読み出す読み出し手段と、
    前記読み出し手段によって読み出された前記再構成された音信号を前記ユーザ端末に送信する送信手段と
    を有することを特徴とする音声記録システム。
JP2011149370A 2011-07-05 2011-07-05 音声記録サーバ装置及び音声記録システム Expired - Fee Related JP5811642B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011149370A JP5811642B2 (ja) 2011-07-05 2011-07-05 音声記録サーバ装置及び音声記録システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011149370A JP5811642B2 (ja) 2011-07-05 2011-07-05 音声記録サーバ装置及び音声記録システム

Publications (2)

Publication Number Publication Date
JP2013015726A JP2013015726A (ja) 2013-01-24
JP5811642B2 true JP5811642B2 (ja) 2015-11-11

Family

ID=47688449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011149370A Expired - Fee Related JP5811642B2 (ja) 2011-07-05 2011-07-05 音声記録サーバ装置及び音声記録システム

Country Status (1)

Country Link
JP (1) JP5811642B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6533048B2 (ja) * 2014-10-29 2019-06-19 株式会社野村総合研究所 コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム
WO2016129188A1 (ja) * 2015-02-10 2016-08-18 Necソリューションイノベータ株式会社 音声認識処理装置、音声認識処理方法およびプログラム
JP6527768B2 (ja) * 2015-07-07 2019-06-05 株式会社アニモ 情報処理方法及び装置
DE112018000423B4 (de) * 2017-01-18 2022-08-25 Yamaha Corporation Part-Anzeigevorrichtung, Elektronische Musikvorrichtung, Bedienterminal-Vorrichtung und Part-Anzeigeverfahren
JP2019191490A (ja) * 2018-04-27 2019-10-31 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP6614589B2 (ja) * 2018-05-09 2019-12-04 株式会社野村総合研究所 コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム
JP7384397B2 (ja) * 2020-02-07 2023-11-21 菱甲産業株式会社 音声漏洩防止装置および音声漏洩防止プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0543200U (ja) * 1991-10-30 1993-06-11 クラリオン株式会社 音声記録系装置
US6249765B1 (en) * 1998-12-22 2001-06-19 Xerox Corporation System and method for extracting data from audio messages
JP2002215615A (ja) * 2001-01-17 2002-08-02 Mitsubishi Electric Corp 文書作成システム、そのシステムに用いられるサーバ、端末、文書作成方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体
JP2005267358A (ja) * 2004-03-19 2005-09-29 Hitachi Medical Corp 地域医療のための電子カルテ作成・管理システム及びその運営方法
WO2007039995A1 (ja) * 2005-09-30 2007-04-12 Pioneer Corporation ダイジェスト作成装置およびそのプログラム
JP2009188858A (ja) * 2008-02-08 2009-08-20 National Institute Of Information & Communication Technology 音声出力装置、音声出力方法、及びプログラム

Also Published As

Publication number Publication date
JP2013015726A (ja) 2013-01-24

Similar Documents

Publication Publication Date Title
JP5811642B2 (ja) 音声記録サーバ装置及び音声記録システム
US20220062707A1 (en) Privacy Preserving Personalized Workout Recommendations
US11955125B2 (en) Smart speaker and operation method thereof
US8046220B2 (en) Systems and methods to index and search voice sites
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
US10510344B2 (en) Systems and methods of interpreting speech data
JP2018026085A (ja) 音楽推薦方法及びその装置
US9197681B2 (en) Interaction using content
KR20160104635A (ko) 컨텍스트 정보에 기초하여 검색 결과들을 생성하기 위한 방법들, 시스템들 및 매체들
JP6562355B2 (ja) 探索支援方法、探索支援装置、及び、プログラム
JP2006518892A (ja) 個人広告のための音声及びビデオによるグリーティングシステム及びその方法
JP2011039860A (ja) 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
KR20160090330A (ko) 컨퍼런스에서의 음성 합성 제어
KR102208822B1 (ko) 음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법
JP2007334732A (ja) ネットワークシステム及びネットワーク情報送受信方法
CN110189807A (zh) 健康指数测量方法、装置及存储介质
JP2020064493A (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
CN107656770A (zh) 应用程序运行方法及装置、终端和计算机可读存储介质
US20140328472A1 (en) System for Managing Spontaneous Vocal Communication
JP6082047B2 (ja) 文書記録作成支援装置および文書記録作成支援プログラム
WO2024171284A1 (ja) 情報提供装置、情報提供方法、および情報受信装置
JP6316655B2 (ja) 医療情報システム
JP2014178621A (ja) 情報提供装置およびプログラム
JP7517750B2 (ja) 結婚式における音楽選曲のための自動選曲システム
US20230196933A1 (en) Video-based training organization system and method of use thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150907

LAPS Cancellation because of no payment of annual fees