JP4168539B2 - Dialog information distribution system and dialog information distribution apparatus - Google Patents

Dialog information distribution system and dialog information distribution apparatus Download PDF

Info

Publication number
JP4168539B2
JP4168539B2 JP22004299A JP22004299A JP4168539B2 JP 4168539 B2 JP4168539 B2 JP 4168539B2 JP 22004299 A JP22004299 A JP 22004299A JP 22004299 A JP22004299 A JP 22004299A JP 4168539 B2 JP4168539 B2 JP 4168539B2
Authority
JP
Japan
Prior art keywords
dialog
dialogue
information distribution
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22004299A
Other languages
Japanese (ja)
Other versions
JP2001045454A (en
JP2001045454A5 (en
Inventor
直樹 林
一夫 澁田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP22004299A priority Critical patent/JP4168539B2/en
Publication of JP2001045454A publication Critical patent/JP2001045454A/en
Publication of JP2001045454A5 publication Critical patent/JP2001045454A5/en
Application granted granted Critical
Publication of JP4168539B2 publication Critical patent/JP4168539B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、対話情報配信システムおよび対話情報配信装置並びに記憶媒体に関し、詳しくは、複数の音声データを入力し、対話を検出すると共に該対話に関与する者へ対話情報を配信する対話情報配信システムおよびこの対話情報配信システムに用いられる対話情報配信装置並びにコンピュータを対話情報配信装置として機能させるプログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】
複数人による対話(会話、会議)を知ることで新たな知識が得られることは多い。例えば、店頭において顧客同士が交わす率直な会話を聞くことで、開発者が商品の改善点や潜在的なニーズを掴める、といったことがある。また例えば、企業の意志決定の場における討論を関係者へ公開することで、決定事項に対する関係者の理解が得られ、必要に応じた対応がとられやすくなる、といったことがある。
【0003】
市場動向や環境の変化が速い現代においては、情報が関係者にできるだけ早く伝わることが必要とされる。この点から、対話の情報が関係者へ即時に配信されるようなシステムが望まれる。このようなシステムに関連する従来の技術としては、例えば特開平6−180686号公報に示されるように、実施されている会議の情報を公開するサーバを立ち上げ、公開モードの会議については参加者と会議名称とその他情報(テキストなど、画像表示可能な情報)とを他の人からアクセスできるようにし、どのような会議が現在行われているかを公開するという技術がある。また例えば、特開平10−134047号公報に示されるように、特定のサーバに会議参加者の発言内容からなる議事録を作成し蓄積するという技術がある。
【0004】
【発明が解決しようとする課題】
しかしながら、これらの従来技術には次の二つの課題がある。一つ目は、従来技術では、会議の存在と各メンバーの会議への参加/離席とを、会議参加者が明示的にサーバに通知しなければならない。しかしながら、関係者にとって重要な対話は事前に設定された会議でのみ行われる訳ではない。例えば廊下での立ち話や休憩スペースでの会話、あるいは相手のスケジュールの合間に声をかけて始めた打ち合わせなど、偶発的に開始される対話が業務遂行上の重要なヒントやアイディアを与えてくれる場合がある。従来技術では、対話の参加者が事前に意識的に対話の存在と内容をサーバへ通知しなければならず、偶発的に始まった対話では対話参加者が「今行われた話は重要だった」と気づいてから初めて、対話を一時的に中断してサーバへ通知することになる。したがって、上記に述べたような偶発的に発生したが非常に重要な対話が行われたときに、その存在と内容が対話開始の時点から他の人に知らされることはない。最良の場合でも、対話参加者が気づいた後の情報がアクセス可能となるだけである。
【0005】
二つ目は、従来技術では関係者が自発的にサーバへアクセスし、関係する対話情報を関係者自身が調べなければならない。これは関係者にとって工数的に負担となる上に、アクセスのタイミングを失すると最新情報の入手ができない。特に偶発的に開始される対話は、事前に設定された会議と違い、関係者はその存在を事前に知ることはないので、適切なタイミングでサーバへアクセスすることは不可能である。市場動向や環境の変化が速い現代においては、適切な情報を適切なタイミングで得られないことによる意志決定の遅れや誤りは、大きな機会損失を発生させ得る。
【0006】
本発明の対話情報配信システムは、上記課題を鑑みてなされたものであり、対話開始からその存在と内容を関係者の手を煩わすことなく配信することを目的の一つとする。また、本発明の対話情報配信システムは、偶発的に開始された対話であっても対話の内容を配信することを目的の一つとする。更に、本発明の対話情報配信システムは、非公開を目的とした対話についての配信を防止することを目的の一つとする。あるいは、本発明の対話情報配信システムは、複数の音声データからより適切に対話を検出することを目的の一つとする。また、本発明の対話情報配信システムは、対話情報をより適切な配信先に配信することを目的の一つとする。
【0007】
本発明の対話情報配信装置は、入力された音声データからより適切な対話を検出し、検出した対話に関する音声データをより適切な配信先に配信することを目的とする。また、本発明の記憶媒体は、コンピュータを本発明の対話情報配信装置として機能させることを目的とする。
【0008】
【課題を解決するための手段およびその作用・効果】
本発明の対話情報配信システムおよび対話情報配信装置並びに記憶媒体は、上述の目的の少なくとも一部を達成するために以下の手段を採った。
【0009】
本発明の対話情報配信システムは、入力された音声データから対話を検出すると共に該対話に関与する者へ対話情報を配信する対話情報配信システムであって、対話に参加可能な各人が携帯し、該各人の音声データを識別可能に送信する携帯送信手段と、前記各人が携帯し、音声データを受信する携帯受信手段と、前記携帯送信手段により送信された前記各人の音声データを受信する音声データ受信手段と、該受信した前記各人の音声データに基づいて前記各人のうち対話に参加している対話参加者を判定する対話参加者判定手段と、該判定結果に基づいて前記各人のうち前記対話に関する音声データの配信を受ける配信者を選定する配信者選定手段と、該選定された配信者が携帯する前記携帯受信手段が受信可能に前記対話に関する音声データを送信する音声データ送信手段と、を有し、前記対話参加者判定手段は、前記各人の音声データを有声音データと無声音データとに区別すると共に該区別された有声音データと無声音データの時間を計測する区別計測手段と、該区別された有声音データと無声音データおよび該計測された有声音データと無声音データの時間に基づいて前記対話を検出する対話検出手段と、該検出された対話を構成する音声データに基づいて前記対話参加者を選定する対話参加者選定手段と、前記区別された有声音データから第1のキーワードと該第1のキーワードと所定の関係で対をなす第2のキーワードとからなる所定関係ワードを検出する所定関係ワード検出手段と、該所定関係ワード検出手段により前記所定関係ワードが検出されたとき、前記第1のキーワードの有声音データの基をなす音声データと該第2のキーワードの有声音データの基をなす音声データとが対話の関係にあると判定する対話関係判定手段と、を備え、前記対話検出手段は、前記対話関係判定手段の判定結果に基づいて対話を検出する手段であることを要旨とする。
【0010】
この本発明の対話情報配信システムでは、対話参加者判定手段が、音声データ受信手段により受信した各人の音声データに基づいて各人のうち対話に参加している対話参加者を判定し、配信者選定手段が、この判定結果に基づいて各人のうち対話に関する音声データの配信を受ける配信者を選定する。そして、音声データ送信手段が、この選定された配信者が携帯する携帯受信手段により受信可能な無線チャンネルを用いて対話に関する音声データを送信する。
【0011】
こうした本発明の対話情報配信システムによれば、各人の音声データから対話に参加している対話参加者を判定することができる。また、この判定に基づいて配信者を選定することができる。無線チャンネルを用いて各人と音声データの送受信を行なうから、偶発的に開始された対話でも受信し、配信することができる。
【0013】
うすれば、より的確に対話を検出することができると共に、より適正な対話参加者を判定することができる。この態様の本発明の対話情報配信システムにおいて、前記第1のキーワードは挨拶,呼びかけ,質問,疑問,確認等を表わす表現であり、前記第2のキーワードは前記挨拶,呼びかけ,質問,疑問,確認を表わす表現に対応する応答の表現であるものとすることもできる。この所定関係ワードを考慮する態様の本発明の対話情報配信システムにおいて、前記所定の関係は、前記第1のキーワードの発現時間から所定時間内に前記第2のキーワードが発現する関係であるものとすることもできる。
【0014】
また、音声データを有声音データと無声音データとに区別する態様の本発明の対話情報配信システムにおいて、前記対話参加者判定手段は前記区別された有声音データから第3のキーワードを検出するキーワード検出手段を備え、前記対話検出手段は前記キーワード検出手段により前記区別された有声音データから前記第3のキーワードが検出されたとき該検出された有声音データを無声音データとみなして前記対話を検出する手段であるものとすることもできる。こうすれば、より的確に対話を検出することができ、より適正な対話参加者を判定することができる。この態様の本発明の対話情報配信システムにおいて、前記第3のキーワードは、相づち,感動,割り込み等を表わす表現であるものとすることもできる。
【0015】
本発明の対話情報配信システムにおいて、前記携帯送信手段は音声データと異なる前記各人毎の所定信号を無線送信する所定信号送信手段を備え、前記音声データ受信手段は複数の異なる場所に配置され前記所定信号送信手段により無線送信された前記各人毎の所定信号を受信する複数の所定信号受信手段を備え、前記対話参加者判定手段は前記複数の所定信号受信手段により受信された前記各人毎の所定信号にも基づいて前記各人のうち対話に参加している対話参加者を判定する手段であるものとすることもできる。こうすれば、より的確に対話を検出することができ、より適正な対話参加者を判定することができる。この態様の本発明の対話情報配信システムにおいて、前記対話参加者判定手段は、前記複数の所定信号受信手段により受信された前記各人毎の所定信号に基づいて前記各人の位置を判定する位置判定手段を備え、該判定された前記各人の位置と前記音声データとに基づいて前記対話参加者を判定する手段であるものとすることもできる。
【0016】
また、本発明の対話情報配信システムにおいて、前記配信者選定手段は、前記各人のうち少なくとも二人以上からなる所定のグループを設定するグループ設定手段を備え、該設定された所定のグループにも基づいて前記配信者を選定する手段であるものとすることもできる。こうすれば、対話には参加していないが対話情報を必要とする者に対話情報を配信することができる。この態様の本発明の対話情報配信システムにおいて、前記配信者選定手段は、前記対話参加者判定手段により判定された対話参加者が前記所定のグループに含まれるとき、該所定のグループに属する各人を配信者に選定する手段であるものとすることもできる。
【0017】
更に、本発明の対話情報配信システムにおいて、前記配信者選定手段は、特定ワードを設定する特定ワード設定手段と、該設定された特定ワードを前記区別された有声音データから検出する特定ワード検出手段とを備え、該特定ワード検出手段により前記区別された有声音データから特定ワードが検出されたとき、該検出された有声音データの基となる音声データの送信者を配信者に選定する手段であるものとすることもできる。こうすれば、特定ワードに関与する者に対話情報を配信することができる。
【0018】
あるいは、本発明の対話情報配信システムにおいて、前記携帯送信手段は、前記音声データを送信するか否かを選択する送信選択手段を備えるものとすることもできる。こうすれば、対話を非公開とすることができ、機密保持を図ることができる。
【0019】
また、本発明の対話情報配信システムにおいて、前記携帯受信手段は、前記音声データを受信するか否かを選択する受信選択手段を備えるものとすることもできる。こうすれば、対話情報の受信を選択することができる。
【0020】
さらに、本発明の対話情報配信システムにおいて、前記携帯受信手段は、前記送信した音声データを記憶する記憶手段と、操作者の操作に基づいて前記記憶手段に記憶された音声データを出力する音声出力手段とを備えるものとすることもできる。こうすれば、操作者が必要なときに音声データを出力させることができる。
【0021】
本発明の対話情報配信システムにおいて、前記携帯送信手段は一つのユニットとして構成され、前記携帯受信手段は前記携帯送信手段とは異なる一つのユニットとして構成され、前記音声データ受信手段と前記対話参加者判定手段と前記配信者選定手段と前記音声データ送信手段とが前記携帯送信手段および前記携帯受信手段とは異なるユニットとして構成されてなるものとすることもできる。
【0022】
また、本発明の対話情報配信システムにおいて、前記携帯送信手段と前記携帯受信手段とが一つのユニットとして構成され、前記音声データ受信手段と前記対話参加者判定手段と前記配信者選定手段と前記音声データ送信手段とが前記ユニットとは異なるユニットとして構成されてなるものとすることもできる。
【0023】
本発明の対話情報配信装置は、入力された音声データから対話を検出すると共に該対話に関与する者へ対話情報を配信する対話情報配信装置であって、対話者から識別可能に送信された複数の音声データを受信する音声データ受信手段と、該受信した前記音声データに基づいて対話に参加している対話者を判定する対話参加者判定手段と、該判定結果に基づいて前記対話に関する音声データの配信先を選定する配信先選定手段と、該選定された配信先に前記対話に関する音声データを送信する音声データ送信手段と有し、前記対話参加者判定手段は、前記各人の音声データを有声音データと無声音データとに区別すると共に該区別された有声音データと無声音データの時間を計測する区別計測手段と、該区別された有声音データと無声音データおよび該計測された有声音データと無声音データの時間に基づいて前記対話を検出する対話検出手段と、該検出された対話を構成する音声データに基づいて前記対話参加者を選定する対話参加者選定手段と、前記区別された有声音データから第1のキーワードと該第1のキーワードと所定の関係で対をなす第2のキーワードとからなる所定関係ワードを検出する所定関係ワード検出手段と、該所定関係ワード検出手段により前記所定関係ワードが検出されたとき、前記第1のキーワードの有声音データの基をなす音声データと該第2のキーワードの有声音データの基をなす音声データとが対話の関係にあると判定する対話関係判定手段と、を備え、前記対話検出手段は、前記対話関係判定手段の判定結果に基づいて対話を検出する手段であることを要旨とする。
【0024】
この本発明の対話情報配信装置では、対話判定手段が、音声データ受信手段により受信した複数の音声データに基づいて対話に参加している音声データを判定し、配信先選定手段が、この判定結果に基づいて対話に関する音声データの配信先を選定する。そして、音声データ送信手段が、この選定された配信先に対話に関する音声データを送信する。
【0025】
こうした本発明の対話情報配信装置によれば、複数の音声データから対話に参加している音声データを判定することができる。また、この判定に基づいて配信先を選定することができる。無線チャンネルを用いて複数の音声データの送受信を行なうから、偶発的に開始された対話でも受信し、配信することができる。
【0028】
【発明の実施の形態】
次に、本発明の実施の形態を実施例を用いて説明する。図1は本発明の一実施例である対話情報配信システム5の構成の概略を機能ブロックとして示すブロック構成図である。実施例の対話情報配信システム5は、図示するように、複数の音声データを入力すると共に入力した音声データに基づいて配信先を設定して音声データを配信する対話情報配信装置10と、各ユーザによって携帯され各ユーザの音声データを対話情報配信装置10に送信する複数のユーザ用送信ユニット12と、各ユーザによって携帯され対話情報配信装置10から配信された音声データを受信すると共に音声出力する複数のユーザ用再生ユニット14とから構成されている。図2は対話情報配信装置10のハード構成の概略を示す構成図であり、図3はユーザ用送信ユニット12のハード構成の概略を示す構成図であり、図4はユーザ用再生ユニット14のハード構成の概略を示す構成図である。説明の都合上、まず、図2ないし図4を用いて対話情報配信装置10やユーザ用送信ユニット12,ユーザ用再生ユニット14のハード構成について説明する。
【0029】
図2に示すように、対話情報配信装置10は、プロセッサバス22に接続された演算処理部20、プロセッサバス22をローカルバス32(例えば、PCIバス)に接続するバスブリッジ30、ローカルバス32を介して演算処理部20のCPU21等によりアクセスを受けるコントローラ部40、各種のI/O装置等を制御する機器が低速の外部バス42(例えば、ISAバス)に接続されたI/O部60、および周辺機器であるキーボード72,スピーカ74,カラーCRT76などから構成される汎用のコンピュータと同様の構成をしている。
【0030】
演算処理部20は、中央演算処理装置としてのCPU21(例えば、インテル社製Pentium等)、キャッシュメモリ23、そのキャッシュコントローラ24およびメインメモリ25から構成されている。バスブリッジ30は、プロセッサバス22とローカルバス32との間でデータ伝送を制御するコントローラである。CPU21は、メモリ管理ユニット(MMU)を内蔵し、実際の物理アドレスより広い論理アドレスにアクセスすることができる。
【0031】
コントローラ部40は、カラーCRT76への画像の表示を司るグラフィックスコントローラ44、接続されるSCSI機器とのデータ転送を司るSCSIコントローラ46、ローカルバス32と外部バス42との間でデータ伝送を制御するバスブリッジ48から構成されている。なお、表示用のフォントを記憶したキャラクタジェネレータや所定のコマンドを受け取って所定の図形を描画するグラフィックコントローラ、更には描画画像を記憶するビデオメモリ等も、グラフィックコントローラ44に実装されているが、これらの構成は周知のものなので、図2では図示を省略した。
【0032】
バスブリッジ48を介して接続された外部バス42は、各種のI/O機器が接続される入出力制御用のバスであり、DMAコントローラ50、リアルタイムクロック(RTC)52、複合I/Oポート54、サウンドI/O56、キーボード72および2ボタンマウス73とのインタフェースを司るキーボードインタフェース(KEY)64、優先順位を有する割り込み制御を行なう割り込みコントローラ(PIC)66、各種の時間カウントやビープ音を発生するタイマ68などから構成されている。外部バス42には、各種拡張ボードを実装可能なISAスロット62が接続されている。
【0033】
このISAスロット62には、複数のチャンネルの無線を同時に受信可能なマルチチャンネル受信機93のインタフェース94や複数のチャンネルの無線を同時に出力可能なマルチチャンネル送信機95のインタフェース96,所定周波数の無線を受信する複数の受信機97のインタフェース98が実装されている。このISAスロット62に各インタフェース94,96,98が実装され、各インタフェース94,96,98にマルチチャンネル受信機93やマルチチャンネル送信機95,複数の受信機97が接続されている点が通常のコンピュータと異なる。
【0034】
複合I/Oポート54には、パラレル出力やシリアル出力の他にフロッピディスク装置82やハードディスク84を制御する信号を入出力するポートが用意されている。また、パラレル入出力にはパラレルポート86を介してプリンタ88が接続されており、シリアル入出力にはシリアルポート90を介してモデム92が接続されている。また、サウンドI/O56には、上述したスピーカ74の他にマイクロフォン75が接続可能とされている。
【0035】
この対話情報配信装置10のハードディスク84には、種々のデバイスドライバが記憶されており、対話情報配信装置10は立ち上げ時にハードディスク84から必要なデバイスドライバを読み込んで組み込む。デバイスドライバとしては、複合I/Oポート54を介してのプリンタ88への印字を可能にするプリンタドライバなどがある。
【0036】
ハードディスク84には、「WINDOWS NT」というGUIを備えたオペレーティングシステムが記憶されており(「WINDOWS NT」はマイクロソフト社の商標)、対話情報配信装置10は、このオペレーティングシステムを読み込み、その後アプリケーションプログラムをこのオペレーティングシステム上で動作するよう主記憶上に読み込むことにより機能する。実施例の対話情報配信装置10の機能や動作については図1を用いて後述する。
【0037】
ユーザ用送信ユニット12は、図3に示すように、CPU121を備えるマイクロコンピュータを中心として構成されており、CPU121には、バス122を介して、処理プログラムを記憶したROM123と、一時的にデータを記憶するRAM124と、入出力インタフェース125を介して接続された操作パネル126と、出力インタフェース127を介して接続された音声データを所定の無線チャンネルで送信する音声データ送信機128と、出力インタフェース129を介して接続された固有信号を無線送信する固有信号送信機130と、サウンドI/O131を介して接続されたマイク132とが接続されている。ユーザ用送信ユニット12の機能や動作については後述する。
【0038】
ユーザ用再生ユニット14は、図4に示すように、CPU141を備えるマイクロコンピュータを中心として構成されており、CPU141には、バス142を介して、処理プログラムを記憶したROM143と、一時的にデータを記憶するRAM144と、入出力インタフェース145を介して接続された操作パネル146と、入出力インタフェース147を介して接続されたメモリ148と、入力インタフェース149を介して音声データを所定の無線チャンネルで受信する音声データ受信機150と、サウンドI/O151を介して接続されたスピーカ152とが接続されている。ユーザ用再生ユニット14の機能や動作については後述する。
【0039】
次に、対話情報配信装置10やユーザ用送信ユニット12,ユーザ用再生ユニット14の各部をハード構成との対応を含めてその機能および動作について詳細に説明する。まずユーザ用送信ユニット12から説明する。
【0040】
ユーザ用送信ユニット12は、図1に示すように、ユーザの音声を入力する音声入力部M10と、音声入力部M10で入力された音声からデジタル音声データを生成する音声データ生成部M12と、音声データ生成部M12で生成された音声データを対話情報配信装置10へ送信する第1音声データ送信部M14と、ユーザがどこにいるかを示すデータを対話情報配信装置10へ送信する位置データ送信部M16と、第1音声データ送信部M14と位置データ送信部M16とからデータを送信するか否かを設定するための送信/非送信選択部M18とを備える。
【0041】
音声入力部M10は、図3に例示するユーザ用送信ユニット12のハード構成としてはマイク132が相当する。実施例のマイク132としては、ユーザの声以外の音を拾わないように強い指向性を持っているものが用いられている。なお、ユーザは、操作パネル126に設けられたマイク音量調整を用いて、ユーザの声だけが認識できるようにマイク132の装着位置が調整できるようになっている。音声データ生成部M12は、ハード構成としてはサウンドI/O131が相当し、音声入力部M10で入力された音声からデジタル音声データを生成する。すなわち、音声データ生成部M12は、音声入力部M10で入力された音声に対して増幅と変調を行なっているのである。
【0042】
第1音声データ送信部M14は、ハード構成としては出力インタフェース127および音声データ送信機128が相当する。実施例では、各ユーザ用送信ユニット12毎に送信用の無線チャンネルが一意的に割り当てられており、この割り当てられた無線チャンネルを用いて音声データを無線により送信する。位置データ送信部M16は、ハード構成としては出力インタフェース129および固有信号送信機130が相当する。各ユーザ用送信ユニット12のROM123の所定アドレスには固有のユーザID番号が記憶されており、位置データ送信部M16は、このユーザID番号を位置データ送受信用にあらかじめ定められた無線チャンネルを用いて無線で送信する。なお、位置データ送信部M16の無線出力は、第1音声データ送信部M14に較べて微弱である。その理由は位置データの検出に係わるものであるが、詳細については後述する。
【0043】
送信/非送信選択部M18は、ハード構成としては操作パネル146やCPU141などが相当する。具体的には、操作パネル146に設けられたOn/Offのスイッチによって第1音声データ送信部M14と位置データ送信部M16とからデータを送信するか否かの設定ができるようになっている。
【0044】
対話情報配信装置10は、図1に示すように、ユーザ用送信ユニット12の第1音声データ送信部M14から送信された音声データを受信する第1音声データ受信部M20と、第1音声データ受信部M20で受信した音声データとこれと共に受信したユーザID番号とをユーザ毎に区別して一時的に蓄える音声データバッファ部M22と、この音声データバッファ部M22に蓄積された音声データに対して発声時間と無声時間とを計測する発声時間計測部M24と、ユーザ用送信ユニット12の位置データ送信部M16から送信された位置データを受信する複数の場所に設置された複数の位置データ受信部M26と、位置データ受信部M26で受信した位置データに基づいて同じ場所にいるユーザを判定する位置判定部M28と、複数人の対話の過程で時間的に近接して発言されると考えられる一対のキーワードを記憶する近接キーワード記憶部M30と、近接キーワード記憶部M30が記憶する近接キーワードが音声データバッファ部M22に蓄積された音声データに含まれているかを検出する近接キーワード検出部M32と、対話の過程においてある対話参加者の発言中に別の対話参加者が発声し得るキーワードを記憶する同時発話キーワード記憶部M34と、この同時発話キーワード記憶部M34が記憶する同時発話キーワードが音声データバッファ部M22に蓄積された音声データに含まれているかを検出する同時発話キーワード検出部M36と、ユーザ中から対話参加者を判定する対話参加者判定部M38と、音声データ配信の単位となるユーザグループに関する情報を記憶するグループデータ記憶部M40と、配信キーワードが音声データバッファ部M22に蓄積された音声データに含まれているか否かを検出する配信キーワード検出部M42と、対話参加者判定部M38の判定結果とグループデータ記憶部M40に記憶されたグループデータとに応じて音声データバッファ部M22に蓄積された音声データの配信先を判定する配信先判定部M44と、配信先判定部M44で判定された配信先となるユーザが持つユーザ用再生ユニット14へ音声データを送信する第2音声データ送信部M46とを備える。
【0045】
第1音声データ受信部M20は、図2に例示する対話情報配信装置10のハード構成としてはマルチチャンネル受信機93やインタフェース94,CPU21などが相当する。第1音声データ受信部M20は、各ユーザ用送信ユニット12に割り当てられたすべての無線チャンネルを常時待ち受けており、無線チャンネルとユーザID番号(ユーザ用送信ユニット12の位置データ送信部M16が記憶し送信するものと同じ)との対応関係を記憶している。第1音声データ受信部M20は、他の機能部がどのユーザの音声データかを識別できるように、受信された音声データとユーザID番号とを音声データバッファ部M22へ出力している。
【0046】
音声データバッファ部M22は、ハード構成としてはメインメモリ25やハードディスク84などが相当する。音声データバッファ部M22に蓄えられる音声データとユーザID番号は、対話参加者判定部M38による対話参加者の判定や配信先判定部M44による対話情報の配信先決定に利用される。
【0047】
発声時間計測部M24は、ハード構成としてはタイマ68やCPU21などが相当する。発声時間計測部M24は、対話参加者判定部M38から渡されたユーザID番号に対して音声データバッファ部M22に蓄積された音声データのうちでユーザID番号に対応する音声データについて発声時間と無声時間とが時間軸に沿ってどのように分布するかを示す発声時間データを生成し、発声時間データを対話参加者判定部M38へ結果として返す。
【0048】
図5は音声バッファ部に蓄積されている時刻T1から時間T2の間にユーザAとユーザBとの間で行なわれた対話の一例を示す説明図であり、図6は図5に例示した対話に基づいて生成された発生時間データの一例を示す説明図である。図6(a)はユーザAの発声時間データであり、図6(b)はユーザBの発声時間データである。図6の表において、左端の列には時系列的な順序を示す値が格納され、中央の列には発声または無声である時間(実施例では1/100秒を有効桁としている)が格納され、右端の列には発声/無声の区別を示す値が格納される。なお、同図に示す発声時間データを生成する際に行われる発話が時間的に連続しているか否かの判定(別の発声時間として次行にデータを格納すべきか否かの判定)は、ユーザの声が途切れた時間が一定の時間(例えば0.2秒)を越えるかどうかによって判定されるようになっている。
【0049】
位置データ受信部M26は、ハード構成としては受信機97やインタフェース98などが相当する。位置データ受信部M26は、実施例では複数存在し、受信範囲が互いに重ならないように配置されている。また、位置データ受信部M26毎に受信部ID番号が一意的に割り当てられている。位置データ受信部M26は、位置データ送信部M16から送信された位置データ(=ユーザID番号)を受信したときには、位置データ受信部M26のID番号と受信した位置データとを位置判定部M28へ向けて出力するようになっている。なお、位置データ受信部M26は、位置データ送信部M16の無線出力を勘案し、位置データ送信部M16から送信された位置データを受信できる位置データ受信部M26が一つに限られるように配置されている。
【0050】
位置判定部M28は、ハード構成としてCPU21などが該当する。位置判定部M28は、実施例では所定の時間間隔毎に判定を実施するようになっている。位置判定部M28、所定の時間間隔毎に位置データ受信部M26から送られてくる位置データ(=ユーザID番号)と受信部ID番号とのすべて記憶し、受信部ID番号が同じものに対応づけられているすべてのユーザID番号が一つの集合の要素となるように分類する。そして、この集合を対話参加者判定部M38へ向けて出力する。なお、こうした処理に伴う記録は所定時間毎に抹消され、繰り返し同じ処理が行なわれる。
【0051】
近接キーワード記憶部M30は、ハード構成としてはハードディスク84などが相当する。近接キーワード記憶部M30では、対話の中で最初に出現する第1のキーワードと、この第1のキーワードへの応答として次に出現する第2のキーワードを対の近接キーワードとし、この近接キーワードを表データとして保持している。近接キーワードとしては、1)相手に対する挨拶・呼びかけ(「おはようございます」「**さん」など)とその応答(「おはようございます」「はい」など)、2)相手に対する質問・疑問(「ちょっといいですか」「そこなんですが」など)とその応答(「かまいません」「ここですか」など)、3)相手に対する確認(「これでよろしいでしょうか」「どうでしょう」など)とその応答(「問題ありません」「よろしいです」など)などが該当する。
【0052】
近接キーワード検出部M32は、ハード構成としてはCPU21やメインメモリ25,ハードディスク84などが相当する。近接キーワード検出部M32は、対話参加者判定部M38からユーザID番号を要素とする集合が渡されると、音声データバッファ部M22に蓄積された音声データのうちユーザID番号に対応する音声データに時間的に近接して前述の近接キーワードが出現するかを検出する。ここで、集合の要素は対話に参加していると考えられる複数のユーザであり、近接キーワードが検出された場合はユーザの間に対話が成り立っていると考えられる。近接キーワード検出部M32は、近接キーワードが時間的に近接(実施例では1秒以内)して検出された場合はTRUEを、そうでない場合はFALSEを検出結果として対話参加者判定部M38へ向けて出力する。
【0053】
同時発話キーワード記憶部M34は、ハード構成としてはハードディスク84などが相当する。同時発話キーワード記憶部M34に記憶されるキーワードとしては、相手の話を促す相づち表現(「ええ」など)や感動表現(「おー」「なるほど」など)、あるいは自分が話したいことを示す割り込み表現(「ええと」「ちょっと」「あのお」など)などが該当する。実施例では、この同時発話キーワードとして短い発声時間(2秒以内)が想定されるものが記憶されている。
【0054】
同時発話キーワード検出部M36は、ハード構成としてはCPU21やメインメモリ25,ハードディスク84などが相当する。同時発話キーワード検出部M36は、対話参加者判定部M38からユーザID番号が渡されると、音声データバッファ部M22に蓄積された音声データのうちユーザID番号に対応する音声データ中の短い発声時間帯(実施例では2秒以内)に前述の同時発話キーワードが出現するかを検出する。検出された場合はTRUEを、そうでない場合はFALSEを検出結果として対話参加者判定部M38へ向けて出力する。
【0055】
対話参加者判定部M38は、ハード構成としてはCPU21やメインメモリ25,ハードディスク84などが相当する。対話参加者判定の原則的アルゴリズムは、対話においては一人が話しているときは他の人はほとんど黙っているから、あるユーザの発話部分が他のユーザの無声部分に時間的に収まるという状態が時系列的に連続して続けば、それらのユーザは対話をしていると判定できる、というものである。図7は、ユーザA,B,Cによる対話を原則的アルゴリズムを用いて対話を生成する様子を例示する説明図である。図7(a)はユーザAの発声時間帯a1,a2,a3を示し、同図(b)はユーザBの発声時間帯b1,b2を示し、が同図(c)はユーザCの発声時間帯c1,c2,c3を示している。また、同図(d)は、各ユーザA,B,Cの発言時間帯の相対的位置を示している。すなわち、対話参加者判定部M38では、位置判定部M28で同じ位置にいると判定された複数のユーザの発話時間データで発声及び無声の時間の値とを比較し、組み合わせることが可能かどうか判定するのである。この処理によって、廊下ですれ違うなどたまたま同じ場所にいたのか、実際に対話を行っているのかが音声の内容を深く分析することなくわかる。
【0056】
ここで、一カ所にユーザが多く集まっており複数の対話が別々に進行している場合などでは、ユーザの発話の時間と無声部分の時間だけでは、どのユーザが対話をしているか一意的に検出できない場合がある。この場合には、発話の内容から1)相手に対する挨拶・呼びかけとその応答、2)相手に対する質問・疑問、3)相手に対する確認とその応答が時間的に近接して出現する箇所見つけだすことで、対話参加者を検出できる。この処理を行うために対話参加者判定部M38は、対話に参加していると考えられる複数のユーザのユーザID番号を要素とする集合を近接キーワード検出部M32に渡して、複数のユーザが対話をしているかどうかを調べさせる。さらに、対話においてある対話参加者が話していても別の対話参加者が発言する場合もある。この場合として、相づち表現や感動表現、あるいは割り込み表現がある。上記のアルゴリズムの例外として、このような発言は無視して判定を行う。この例外時の処理を行うために対話参加者判定部M38は、他の参加者の発言中に発言したユーザのユーザID番号を同時発話キーワード検出部M36に渡して、ユーザの発言が上記の無視してよい発言かどうかを調べさせている。
【0057】
対話参加者判定部M38では、原則的アルゴリズムにこうした例外的処理を加えた処理として、例えば、図8に例示する処理ルーチンを実行している。即ち、対話参加者判定部M38では、まず、位置判定部M28から同じ場所にいるユーザのユーザID番号を要素とする集合を受け取り(ステップS100)、この集合に含まれるユーザID番号を順次発生時間計測部M24に渡してこの集合に含まれるユーザID番号毎の発生時間データのすべてを得る(ステップS102)。そして、得た発声時間データから発声/無声が収まる組み合わせを見つけ出す処理を行なう(ステップS104)。一意に定まった組み合わせが見つかったときには(ステップS106,S108)、組み合わせにおけるユーザを対話参加者と判定して(ステップS110)、本ルーチンを終了する。
【0058】
一方、組み合わせは見つかったが、組み合わせが一意に決まらなかったときには、あり得る組み合わせに対応したユーザID番号を要素とする集合を複数生成し、これらを近接ワード検出部M32に渡して検出結果を得る(ステップS112)。近接キーワード検出部M32からの結果から近接キーワードが出現する組み合わせを判定し(ステップS114)、近接キーワードが出現した組み合わせがあるときには、近接キーワードが出現した組み合わせのユーザを対話参加者と判定して(ステップS116)、本ルーチンを終了する。近接キーワードが出現した組み合わせがないときには、対話参加者は見つからないと判定し(ステップS126)、本ルーチンを終了する。
【0059】
また、ステップS106で発声時間データから発声/無声が収まる組み合わせが見つからないときには、一部発言が重なるような組み合わせがあるか否かを判定する(ステップS118)。一部発言が重なるような組み合わせがあるときには、組み合わせにおけるユーザのうち他のユーザの発言中に発言したユーザのユーザID番号を同時発話キーワード検出部M36に渡して検出結果を得る(ステップS120)。同時発話キーワード検出部M36による結果が「TRUE」のときには、発言の重なりを無視して良いと判断し(ステップS122)、一部発言が重なる組み合わせにおけるユーザを対話参加者と判定して(ステップS124)、本ルーチンを終了する。
【0060】
ステップS118で一部発言が重なるような組み合わせがないと判定されたときやステップS122で同時発話キーワード検出部M36による結果が「FALSE」で発言の重なりを無視できないと判定されたときには、対話参加者は見つからないと判定して(ステップS126)、本ルーチンを終了する。
【0061】
グループデータ記憶部M40は、ハード構成としてはハードディスク84などが相当する。実施例では、配信先を示す複数のユーザID番号と配信の条件に関わるキーワード(以下、配信キーワードと呼ぶ)とが対応づけられたものが一つのグループデータとされる。グループデータが表す意味は、ユーザID番号が示すユーザの間で配信キーワードが含まれる対話が行われたときは、グループの他のユーザへその対話を配信することを表す。例えば、あるプロジェクトチームのメンバー全員のユーザID番号と、プロジェクトに関わる用語を配信キーワードとして一つのグループデータを記憶した場合、ある複数のプロジェクトメンバーがプロジェクトに関わる対話を行っていた場合に、他のプロジェクトメンバーにもその対話が配信される。配信キーワードが設定されていない場合は、対話内容によらずグループの他のユーザへ対話を配信する。なお、グループデータは、キーボード72などからの入力により設定できるようになっている。
【0062】
配信キーワード検出部M42は、ハード構成としてはCPU21やメインメモリ25などが相当する。配信キーワード検出部M42、配信先判定部M44から対話参加者を示すユーザID番号と配信キーワードとが渡されると、音声データバッファ部M22に蓄積された音声データのうち、渡されたユーザID番号に対応する音声データに配信キーワードが含まれるか否かを検出する。そして、検出されたときには結果としてTRUEを返し、そうでない場合はFALSEを返す。
【0063】
配信先判定部M44は、ハード構成としてはCPU21やメインメモリ25などが相当する。配信先判定部M44における処理は、対話参加者判定部M38によって対話参加者と判定されたユーザを示すユーザID番号を要素とする集合が、対話参加者判定部M38から配信先判定部M44へ渡されることで開始される。図9は、配信先判定部M44で実行される配信先判定処理ルーチンの一例を示すフローチャートである。図示するように、配信先判定部M44では、まず、対話参加者判定部M38から対話参加者のユーザID番号を要素とする集合を受け取り(ステップS200)、グループデータ記憶部M40に記憶されているグループデータに、受け取った集合の要素であるユーザID番号をすべて包含するものがあるか否かを判定する処理を実行する(ステップS202,S204)。包含するグループデータがあるときには、グループデータに配信キーワードが含まれるか否かを判定する(ステップS206)。グループデータが配信キーワードに含まれるときには、対話参加者のユーザID番号と配信キーワードとを配信キーワード検出部M42に渡してその結果を受け取り(ステップS208)、配信キーワードが対話に含まれるか否かを判定する(ステップS210)。配信キーワードが対話に含まれるときには、グループデータに含まれるユーザIDのうち対話参加者ではないものを配信先と判定して(ステップS212)、本ルーチンを終了する。
【0064】
一方、ステップS206でグループデータに配信キーワードが含まれないと判定されたときにも、グループデータに含まれるユーザIDのうち対話参加者ではないものを配信先と判定して(ステップS212)、本ルーチンを終了する。
【0065】
ステップS204で包含するグループデータがないときやステップS210で配信キーワードが対話に含まれないときには、配信先は存在しないと判定して(ステップS214)、本ルーチンを終了する。
【0066】
第2音声データ送信部M46は、ハード構成としてはマルチチャンネル送信機95やインタフェース96などが相当する。実施例では、各ユーザ用再生ユニット14に無線チャンネルが一意的に割り当てられており、第2音声データ送信部M46は、割り当てられた無線チャンネルとユーザID番号との対応関係を記憶している。第2音声データ送信部M46は、配信先判定部M44の判定に従って配信先を示すユーザID番号に対応する無線チャンネルを用いて、音声データバッファ部M22に蓄積されたデジタル音声データを無線により送信する。
【0067】
ユーザ用再生ユニット14は、図1に示すように、対話情報配信装置10の第2音声データ送信部M46が送信したデジタル音声データを受信する第2音声データ受信部M50と、この第2音声データ受信部M50が受信したデジタル音声データをアナログ音声データへ変換する音声変換部M52と、この音声変換部M52から送られたアナログ音声データを変調および増幅すると共にユーザが聞こえる音声として出力する音声出力部M54とを備える。
【0068】
第2音声データ受信部M50は、図4に例示するユーザ用再生ユニット14のハード構成としては音声データ受信機150や入力インタフェース149が相当する。第2音声データ受信部M50は、実施例では各ユーザ用再生ユニット14に固有の無線チャンネルが割り当てられており、割り当てられた無線チャンネルのみの受信を待ち受けている。音声変換部M52は、ハード構成としてはサウンドI/O151が相当する。また、音声出力部M54は、ハード構成としてはサウンドI/O151およびスピーカ152が相当する。音声出力部M54は、操作パネル146の操作つまみにより、音量を調整できるようになっている。
【0069】
以上説明した実施例の対話情報配信システム5によれば、各ユーザの音声データから対話に参加している対話参加者を判定することができる。しかも、挨拶,呼びかけ,質問,疑問,確認等を表わす表現とその応答とからなる近接キーワードを用いて対話参加者を判定するから、より適正な対話参加者を判定することができる。また、相づち,感動,割り込み等を表わす表現を同時発言キーワードとして同時発言を無視して組み合わせを判定するから、より的確に対話を検出することができ、より適正な対話参加者を判定することができる。
【0070】
また、実施例の対話情報配信システム5によれば、対話参加者の判定に基づいて配信先を判定することができる。しかも、グループデータを用いるから、対話には参加していないが対話情報を必要とする者に対話に関する音声データを配信することができる。さらに、配信キーワードを用いるから、配信キーワードに関与する者に対話に関する音声データを配信することができる。
【0071】
さらに、実施例の対話情報配信システム5によれば、無線チャンネルを用いて各ユーザ用送信ユニット12や各ユーザ用再生ユニット14と音声データの送受信を行なうから、偶発的に開始された対話でも受信し、配信することができる。
【0072】
実施例の対話情報配信システム5によれば、ユーザ用送信ユニット12に送信/非送信選択部M18を設けることにより、対話の秘密性を確保することができる。
【0073】
実施例の対話情報配信システム5では、対話情報として音声を用いたが、音声認識機能をユーザ用送信ユニット12または対話情報配信装置10に持たせて対話音声をテキストへ変換し、ユーザへ配信する対話情報をテキスト情報により構成するようにしてもかまわない。この場合、対話参加者の検出処理と配信先の決定処理において音声情報を用いて処理を行ったが、これらのいずれかないし両方を、対話音声からテキストへ変換したテキスト情報に基づいて処理を行うことができる。
【0074】
実施例の対話情報配信システム5では、複数の無線チャンネルを用いて対話参加者からの音声データを入力すると共に対話を配信したが、各対話参加者が識別できればよいから、その手法は問わず、例えば周波数帯域分割によるものや時分割によるものなどの割り当てられた専用の通信路を用いる他、単一の無線チャンネルで行なうものとしてもよい。単一の無線チャンネルで行なうものとしては例えば、音声データをパケット送信で行なうものも含まれる。この際、パケットのヘッダに各対話者のIDをつけるものとすれば、各対話参加者や配信先を識別することができる
【0075】
また、実施例の対話情報配信システム5では、対話情報として音声を用いたが、CCDカメラ等をユーザ用送信ユニットあるいはベースユニットの位置データ受信部に設けておき、対話情報に各ユーザの表情などの画像(例えば動画像)を関連づけるようにしてもよい。
【0076】
さらに、実施例の対話情報配信システム5では、対話参加者の検出の精度を高めるためにユーザの位置情報を用いており、ベースユニットに複数の位置データ受信部を設け、ユーザ用送信ユニットから送信される位置データがそのいずれに受信されるかでユーザの位置を特定していた。この位置データを、GPSなどを用いて絶対的な地理情報を示すデータを送信し、これを一つないし複数の位置データ受信部で受信するように構成してもかまわない。
【0077】
あるいは実施例の対話情報配信システム5では、対話参加者の検出の精度を高めるために、ユーザ用送信ユニット12に他のユーザ用送信ユニット12の接近を発見する機能(例えばビームの受発光、小出力無線の送受信)を設けることで、相対的に近い距離にいるユーザを発見し、これを対話参加者の検出に用いる構成をとってもかまわない。さらに、上記のようにユーザ用送信ユニット12の相対的な距離を援用して対話参加者の検出を行うようにした場合、位置データ受信部M26と第1音声データ受信部M20を除く対話情報配信装置10の機能部をユーザ用送信ユニット12に移すことで、対話情報配信装置10を廃してユーザ用送信ユニット12とユーザ用再生ユニット14によって対話情報配信システムを構成することもできる。
【0078】
実施例の対話情報配信システム5では、対話参加者の検出の精度を高めるための位置情報を特定無線信号の送受信で行っていたが、体からの発熱などの生体情報、あるいはユーザの存在する画面を画像解析することで対話参加者を検出してもよい。
【0079】
実施例の対話情報配信システム5では、ユーザ用送信ユニット12とユーザ用再生ユニット14とは別のユニットとしたが、これを一つのユーザ用ユニットとして構成してもかまわない。この場合、音声入力部M10へ音声が入力されているときは音声出力部M54から音声出力をしない、という二つの機能部間で連携をとることで、対話中に別の対話が配信され再生されることを防ぐことができる。
【0080】
実施例の対話情報配信システム5では、ユーザ用再生ユニット14は送信されてきた音声データを直ちに出力するものとしたが、ユーザ用再生ユニット14に音声データを一時的に蓄えられる第2の音声データバッファ部と、再生をユーザがOn/Offできる再生/停止選択部とを設け、Offが選択されている場合は配信された音声データを一時的に蓄え、Onが選択されたときに蓄えられた音声データから順次再生することで、聞く側のユーザの都合に合わすようにするものとしてもよい。また、この変形を上記の一つのユーザ用ユニットに適用すると、対話中は自動的にOffとして音声データを蓄えるようにできる。
【0081】
実施例の対話情報配信システム5では、対話情報配信装置10を汎用コンピュータにコンピュータを実施例の対話情報配信装置10として機能させるソフトウエアをインストールするものとして構成したが、すべての処理プログラムを記憶するROMを備える専用機として構成してもよい。
【0082】
以上、本発明の実施の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、例えば、汎用コンピュータにコンピュータを実施例の対話情報配信装置10として機能させるソフトウエアを記録した記録媒体としての形態など、本発明の要旨を逸脱しない範囲内において、種々なる形態で実施し得ることは勿論である。なお、記録媒体としては、磁気や光など種々の手法を用いて信号を記録できる媒体、例えば磁気ディスクやCD−ROM,DVD−ROMなどのすべての媒体が含まれる。
【図面の簡単な説明】
【図1】 本発明の一実施例である対話情報配信システム5の構成の概略を機能ブロックとして示すブロック構成図である。
【図2】 実施例の対話情報配信装置10のハード構成の概略を示す構成図である。
【図3】 実施例のユーザ用送信ユニット12のハード構成の概略を示す構成図である。
【図4】 実施例のユーザ用再生ユニット14のハード構成の概略を示す構成図である。
【図5】 音声バッファ部に蓄積されている時刻T1から時間T2の間にユーザAとユーザBとの間で行なわれた対話の一例を示す説明図である。
【図6】 図5に例示した対話に基づいて生成された発生時間データの一例を示す説明図である。
【図7】 ユーザA,B,Cによる対話を原則的アルゴリズムを用いて対話を生成する様子を例示する説明図である。
【図8】 対話参加者判定部M38における対話参加者を判定する際の処理ルーチンの一例を示すフローチャートである。
【図9】 配信先判定部M44で実行される配信先判定処理ルーチンの一例を示すフローチャートである。
【符号の説明】
5 対話情報配信システム、10 対話情報配信装置、12 ユーザ用送信ユニット、14 ユーザ用再生ユニット、20 演算処理部、21 CPU、22プロセッサバス、23 キャッシュメモリ、24 キャッシュコントローラ、25 メインメモリ、30 バスブリッジ、32 ローカルバス、40 コントローラ部、42 外部バス、44 グラフィックスコントローラ、46 SCSIコントローラ、48 バスブリッジ、50 DMAコントローラ、52 リアルタイムクロック、54 複合I/Oポート、56 サウンドI/O、60 I/O部、62 ISAスロット、64 キーボードインタフェース、66 割り込みコントローラ、68 タイマ、72 キーボード、73 2ボタンマウス、74 スピーカ、75 マイクロフォン、76 カラーCRT、82 フロッピディスク装置、84 ハードディスク、86 パラレルポート、88 プリンタ、90 シリアルポート、92 モデム、93 マルチチャンネル受信機、94インタフェース、95 マルチチャンネル送信機、96 インタフェース、97 受信機、98 インタフェース、M10 音声入力部、M12 音声データ生成部、M14 第1音声データ送信部、M16 位置データ送信部、M18 送信/非送信選択部、M20 第1音声データ受信部、M22 音声データバッファ部、M24 発声時間計測部、M26 位置データ受信部、M28 位置判定部、M30 近接キーワード記憶部、M32 近接キーワード検出部、M34同時発話キーワード記憶部、M36 同時発話キーワード検出部、M38 対話参加者判定部、M40 グループデータ記憶部、M42 配信キーワード検出部、M44 配信先判定部、M46 第2音声データ送信部、M50 第2音声データ受信部、M52 音声変換部、M54 音声出力部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a dialog information distribution system, a dialog information distribution apparatus, and a storage medium. More specifically, the present invention relates to a dialog information distribution system that inputs a plurality of audio data, detects a dialog, and distributes the dialog information to persons involved in the dialog. The present invention also relates to a dialog information distribution apparatus used in the dialog information distribution system and a storage medium storing a program that causes a computer to function as the dialog information distribution apparatus.
[0002]
[Prior art]
New knowledge is often obtained by knowing conversations (conversations, meetings) by multiple people. For example, there are cases where a developer can grasp improvement points and potential needs of products by listening to an open conversation between customers at a store. In addition, for example, by disclosing a discussion at a decision making site of a company to related parties, it is possible to obtain an understanding of the related parties regarding the decision items and to easily take a response as necessary.
[0003]
In today's fast-changing market trends and environments, it is necessary for information to be conveyed to relevant parties as soon as possible. From this point, a system is desired in which dialogue information is immediately distributed to the parties concerned. As a conventional technique related to such a system, for example, as disclosed in Japanese Patent Laid-Open No. 6-180686, a server for publishing information on a conference being held is started, and a participant in a conference in a public mode In addition, there is a technology that makes it possible for other people to access the conference name and other information (information such as text, which can be displayed as an image), and discloses what conference is currently being held. For example, as disclosed in Japanese Patent Laid-Open No. 10-134047, there is a technique of creating and storing minutes of conference participants' content on a specific server.
[0004]
[Problems to be solved by the invention]
However, these conventional techniques have the following two problems. First, in the prior art, the conference participants must explicitly notify the server of the presence of the conference and the participation / separation of each member in the conference. However, conversations that are important to interested parties are not only held at pre-set meetings. Accidentally initiated conversations, such as standing in a corridor, a conversation in a resting space, or a meeting that starts out in the middle of another person's schedule, give you important tips and ideas for doing business There is. In the prior art, the participants of the dialogue had to consciously notify the server of the existence and content of the dialogue in advance, and in the dialogue that started accidentally, the dialogue participant said, “The story that took place was important. Only after recognizing that, "the conversation is temporarily interrupted and the server is notified. Therefore, when a conversation that occurs accidentally but is very important as described above is performed, the existence and contents of the conversation are not made known to others from the start of the conversation. In the best case, the information is only accessible after the participants have noticed.
[0005]
Second, in the prior art, the parties must voluntarily access the server, and the parties themselves must check the related dialogue information. This is burdensome for the people involved, and if the access timing is lost, the latest information cannot be obtained. In particular, an accidentally started conversation is different from a conference set in advance, and the parties do not know the existence in advance, so it is impossible to access the server at an appropriate timing. In today's fast-changing market trends and environments, decision-making delays and errors due to the failure to obtain appropriate information at the right time can cause significant opportunity loss.
[0006]
The dialog information distribution system of the present invention has been made in view of the above problems, and an object thereof is to distribute the presence and contents from the start of the dialog without bothering the parties concerned. Another object of the dialog information distribution system of the present invention is to distribute the contents of a dialog even if the dialog is accidentally started. Furthermore, the dialog information distribution system of the present invention has an object to prevent distribution of a dialog for non-disclosure. Alternatively, the dialog information distribution system of the present invention has an object of more appropriately detecting a dialog from a plurality of audio data. Another object of the dialog information distribution system of the present invention is to distribute the dialog information to a more appropriate distribution destination.
[0007]
An object of the present invention is to detect a more appropriate dialog from input voice data, and to distribute the voice data related to the detected dialog to a more appropriate delivery destination. Further, the storage medium of the present invention is intended to make a computer function as the interactive information distribution apparatus of the present invention.
[0008]
[Means for solving the problems and their functions and effects]
The dialog information distribution system, the dialog information distribution apparatus, and the storage medium of the present invention employ the following means in order to achieve at least a part of the above-described object.
[0009]
The interactive information delivery system of the present invention is A dialogue information distribution system for detecting a dialogue from input voice data and delivering dialogue information to a person involved in the dialogue, Each person who can participate in the conversation carries a portable transmission means that transmits the voice data of each person in an identifiable manner, a portable reception means that each person carries and receives the voice data, and the portable transmission means A voice data receiving means for receiving the voice data of each person transmitted, and a dialog participant for determining a dialog participant participating in the dialog among the persons based on the received voice data of each person Received by a determining means, a distributor selecting means for selecting a distributor who receives audio data related to the dialogue among the persons based on the determination result, and the portable receiving means carried by the selected distributor Voice data transmitting means for transmitting voice data related to the dialogue, The dialogue participant determination means distinguishes the voice data of each person into voiced sound data and unvoiced sound data, and measures the time of the distinguished voiced sound data and unvoiced sound data; and Dialogue detecting means for detecting the dialog based on the distinguished voiced sound data and unvoiced sound data, and the measured time of the voiced sound data and unvoiced sound data, and the dialog based on the voice data constituting the detected dialog A dialogue participant selection means for selecting a participant, and a predetermined relation word comprising a first keyword and a second keyword paired with the first keyword in a predetermined relation from the distinguished voiced sound data is detected. A predetermined relation word detecting means, and when the predetermined relation word is detected by the predetermined relation word detection means, a basis of voiced sound data of the first keyword is formed. Dialogue relation judging means for judging that voice data and voice data forming the basis of the voiced sound data of the second keyword are in a dialogue relation, wherein the dialogue detection means is judged by the dialogue relation judgment means A means to detect dialogue based on results This is the gist.
[0010]
In the dialog information distribution system of the present invention, the dialog participant determination means determines a dialog participant who participates in the dialog among each person based on the voice data of each person received by the voice data reception means, and distributes it. Based on the determination result, the person selecting means selects the distributor who receives the voice data related to the conversation among the persons. Then, the voice data transmission means transmits voice data related to the conversation using a wireless channel that can be received by the portable reception means carried by the selected distributor.
[0011]
According to such a dialog information distribution system of the present invention, it is possible to determine a dialog participant participating in the dialog from each person's voice data. Further, a distributor can be selected based on this determination. Since voice data is transmitted / received to / from each person using a wireless channel, even an accidentally started dialogue can be received and distributed.
[0013]
This By doing so, it is possible to detect a dialogue more accurately and to determine a more appropriate dialogue participant. In the interactive information distribution system of the present invention of this aspect, the first keyword is an expression representing greeting, call, question, question, confirmation, etc., and the second keyword is the greeting, call, question, question, confirmation. It can also be an expression of a response corresponding to an expression representing. In the interactive information distribution system of the present invention in which the predetermined relationship word is taken into account, the predetermined relationship is a relationship in which the second keyword is expressed within a predetermined time from an expression time of the first keyword. You can also
[0014]
In the dialog information distribution system of the present invention that distinguishes voice data into voiced sound data and unvoiced sound data, the dialog participant determination means detects a third keyword from the distinguished voiced sound data. And the dialogue detection means detects the dialogue by regarding the detected voiced sound data as unvoiced sound data when the third keyword is detected from the distinguished voiced sound data by the keyword detection means. It can also be a means. In this way, the dialog can be detected more accurately, and more appropriate dialog participants can be determined. In the interactive information distribution system of the present invention of this aspect, the third keyword may be an expression representing a combination, impression, interruption, or the like.
[0015]
In the interactive information distribution system of the present invention, the portable transmission means includes predetermined signal transmission means for wirelessly transmitting a predetermined signal for each person different from the voice data, and the voice data receiving means is arranged at a plurality of different locations. A plurality of predetermined signal receiving means for receiving the predetermined signal for each person wirelessly transmitted by the predetermined signal transmitting means; and the dialog participant determining means is for each of the persons received by the plurality of predetermined signal receiving means. It is also possible to determine a conversation participant who is participating in the conversation among the respective persons based on the predetermined signal. In this way, the dialog can be detected more accurately, and more appropriate dialog participants can be determined. In the dialog information distribution system of the present invention of this aspect, the dialog participant determination means determines the position of each person based on the predetermined signal for each person received by the plurality of predetermined signal reception means. It can also be provided with a determination means and a means for determining the conversation participant based on the determined position of each person and the audio data.
[0016]
In the dialog information distribution system according to the present invention, the distributor selection unit includes a group setting unit that sets a predetermined group including at least two of the persons, and the predetermined group that is set includes It may be a means for selecting the distributor based on the above. In this way, the dialog information can be distributed to those who do not participate in the dialog but need the dialog information. In the dialog information distribution system of the present invention according to this aspect, the distributor selecting unit includes each person belonging to the predetermined group when the dialog participant determined by the dialog participant determining unit is included in the predetermined group. It may be a means for selecting a distributor.
[0017]
Furthermore, in the dialog information distribution system of the present invention, the distributor selection means includes a specific word setting means for setting a specific word, and a specific word detection means for detecting the set specific word from the distinguished voiced sound data. And a means for selecting, as a distributor, a sender of voice data that is the basis of the detected voiced sound data when the specific word is detected from the distinguished voiced sound data by the specific word detecting means. It can also be. In this way, the dialog information can be distributed to those who are involved in the specific word.
[0018]
Alternatively, in the interactive information distribution system of the present invention, the portable transmission unit may include a transmission selection unit that selects whether to transmit the audio data. In this way, the dialogue can be kept private and confidentiality can be maintained.
[0019]
In the dialogue information distribution system of the present invention, the portable receiving means may include a reception selecting means for selecting whether to receive the audio data. In this way, reception of dialogue information can be selected.
[0020]
Furthermore, in the interactive information distribution system of the present invention, the portable receiving means stores storage means for storing the transmitted voice data, and voice output for outputting the voice data stored in the storage means based on an operation by an operator. Means. In this way, audio data can be output when the operator needs it.
[0021]
In the interactive information distribution system of the present invention, the portable transmission unit is configured as one unit, the portable reception unit is configured as a single unit different from the portable transmission unit, and the voice data reception unit and the dialog participant The determination unit, the distributor selection unit, and the voice data transmission unit may be configured as units different from the portable transmission unit and the portable reception unit.
[0022]
In the interactive information distribution system according to the present invention, the portable transmission unit and the portable reception unit are configured as one unit, the voice data receiving unit, the dialog participant determining unit, the distributor selecting unit, and the voice. The data transmission means may be configured as a unit different from the unit.
[0023]
The dialog information distribution apparatus of the present invention A dialog information distribution device that detects a dialog from input voice data and distributes the dialog information to a person involved in the dialog. Voice data receiving means for receiving a plurality of voice data transmitted in an identifiable manner, and participating in a dialogue based on the received voice data Dialogue Dialog to determine participant Determining means; delivery destination selecting means for selecting a delivery destination of voice data related to the dialogue based on the judgment result; and voice data transmitting means for sending voice data related to the dialogue to the selected delivery destination; , The The dialogue participant determination means distinguishes the voice data of each person into voiced sound data and unvoiced sound data, and measures the time of the distinguished voiced sound data and unvoiced sound data; and Dialogue detecting means for detecting the dialog based on the distinguished voiced sound data and unvoiced sound data, and the measured time of the voiced sound data and unvoiced sound data, and the dialog based on the voice data constituting the detected dialog A dialogue participant selection means for selecting a participant, and a predetermined relation word comprising a first keyword and a second keyword paired with the first keyword in a predetermined relation from the distinguished voiced sound data is detected. A predetermined relation word detecting means, and when the predetermined relation word is detected by the predetermined relation word detection means, a basis of voiced sound data of the first keyword is formed. Dialogue relation judging means for judging that voice data and voice data forming the basis of the voiced sound data of the second keyword are in a dialogue relation, wherein the dialogue detection means is judged by the dialogue relation judgment means A means to detect dialogue based on results This is the gist.
[0024]
In the dialog information distribution apparatus of the present invention, the dialog determination unit determines voice data participating in the dialog based on the plurality of voice data received by the voice data reception unit, and the distribution destination selection unit determines the determination result. Based on the above, the distribution destination of the voice data related to the dialogue is selected. Then, the voice data transmitting means transmits voice data related to the dialogue to the selected delivery destination.
[0025]
According to such a dialog information distribution apparatus of the present invention, voice data participating in a dialog can be determined from a plurality of voice data. Moreover, a delivery destination can be selected based on this determination. Since a plurality of audio data is transmitted / received using a wireless channel, even an accidentally started dialogue can be received and distributed.
[0028]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described using examples. FIG. 1 is a block configuration diagram showing an outline of a configuration of a dialogue information distribution system 5 which is an embodiment of the present invention as a functional block. As shown in the figure, the interactive information distribution system 5 according to the embodiment inputs a plurality of audio data, sets the distribution destination based on the input audio data and distributes the audio data, and each user. And a plurality of user transmission units 12 that transmit voice data of each user to the dialogue information distribution device 10 and a plurality of voice data that are carried by each user and distributed from the dialogue information distribution device 10 and that output the voice. And a user reproduction unit 14. 2 is a block diagram showing an outline of the hardware configuration of the dialogue information distribution apparatus 10, FIG. 3 is a block diagram showing an outline of the hardware configuration of the user transmission unit 12, and FIG. It is a block diagram which shows the outline of a structure. For convenience of explanation, first, the hardware configuration of the dialogue information distribution apparatus 10, the user transmission unit 12, and the user reproduction unit 14 will be described with reference to FIGS.
[0029]
As shown in FIG. 2, the dialogue information distribution apparatus 10 includes an arithmetic processing unit 20 connected to the processor bus 22, a bus bridge 30 that connects the processor bus 22 to a local bus 32 (for example, a PCI bus), and a local bus 32. A controller unit 40 that is accessed by the CPU 21 of the arithmetic processing unit 20 via the I / O unit 60 connected to a low-speed external bus 42 (for example, an ISA bus), and devices that control various I / O devices, In addition, it has the same configuration as a general-purpose computer including a keyboard 72, a speaker 74, a color CRT 76, and the like, which are peripheral devices.
[0030]
The arithmetic processing unit 20 includes a CPU 21 (for example, Pentium manufactured by Intel) as a central processing unit, a cache memory 23, a cache controller 24 thereof, and a main memory 25. The bus bridge 30 is a controller that controls data transmission between the processor bus 22 and the local bus 32. The CPU 21 has a built-in memory management unit (MMU), and can access a logical address wider than an actual physical address.
[0031]
The controller unit 40 controls data transmission between the graphics controller 44 that controls display of images on the color CRT 76, the SCSI controller 46 that controls data transfer with the connected SCSI device, and the local bus 32 and the external bus 42. The bus bridge 48 is used. A graphic generator 44 that stores fonts for display, a graphic controller that receives a predetermined command and draws a predetermined graphic, and a video memory that stores a drawn image are also mounted on the graphic controller 44. Since this configuration is well known, it is not shown in FIG.
[0032]
The external bus 42 connected via the bus bridge 48 is an input / output control bus to which various I / O devices are connected, and includes a DMA controller 50, a real time clock (RTC) 52, and a composite I / O port 54. , Sound I / O 56, keyboard interface (KEY) 64 that controls the interface with keyboard 72 and two-button mouse 73, interrupt controller (PIC) 66 that performs interrupt control with priority, various time counts and beep sounds It consists of a timer 68 and the like. An ISA slot 62 in which various expansion boards can be mounted is connected to the external bus 42.
[0033]
The ISA slot 62 includes an interface 94 of a multi-channel receiver 93 capable of simultaneously receiving a plurality of channels of radio, an interface 96 of a multi-channel transmitter 95 capable of simultaneously outputting a plurality of channels of radio, and a radio of a predetermined frequency. An interface 98 of a plurality of receivers 97 for receiving is mounted. Each interface 94, 96, 98 is mounted in the ISA slot 62, and a multichannel receiver 93, a multichannel transmitter 95, and a plurality of receivers 97 are connected to each interface 94, 96, 98. Different from computer.
[0034]
The composite I / O port 54 is provided with a port for inputting and outputting signals for controlling the floppy disk device 82 and the hard disk 84 in addition to parallel output and serial output. A printer 88 is connected to the parallel input / output via a parallel port 86, and a modem 92 is connected to the serial input / output via a serial port 90. In addition to the speaker 74 described above, a microphone 75 can be connected to the sound I / O 56.
[0035]
Various device drivers are stored in the hard disk 84 of the interactive information distribution apparatus 10, and the interactive information distribution apparatus 10 reads and incorporates necessary device drivers from the hard disk 84 at the time of startup. Examples of the device driver include a printer driver that enables printing on the printer 88 via the composite I / O port 54.
[0036]
The hard disk 84 stores an operating system having a GUI “WINDOWS NT” (“WINDOWS NT” is a trademark of Microsoft Corporation). The interactive information distribution apparatus 10 reads this operating system, and then loads an application program. It functions by reading it into the main memory so as to operate on this operating system. Functions and operations of the dialogue information distribution apparatus 10 according to the embodiment will be described later with reference to FIG.
[0037]
As shown in FIG. 3, the user transmission unit 12 is mainly configured by a microcomputer including a CPU 121, and a ROM 123 storing a processing program and data are temporarily stored in the CPU 121 via a bus 122. A RAM 124 for storing, an operation panel 126 connected via an input / output interface 125, an audio data transmitter 128 for transmitting audio data connected via an output interface 127 on a predetermined wireless channel, and an output interface 129 A unique signal transmitter 130 that wirelessly transmits a unique signal connected via the sound I / O 131 and a microphone 132 connected via the sound I / O 131 are connected. The function and operation of the user transmission unit 12 will be described later.
[0038]
As shown in FIG. 4, the user reproduction unit 14 is mainly configured by a microcomputer including a CPU 141, and a ROM 143 storing a processing program and data are temporarily stored in the CPU 141 via a bus 142. The RAM 144 to be stored, the operation panel 146 connected via the input / output interface 145, the memory 148 connected via the input / output interface 147, and the audio data are received via a predetermined wireless channel via the input interface 149. An audio data receiver 150 and a speaker 152 connected via a sound I / O 151 are connected. The function and operation of the user playback unit 14 will be described later.
[0039]
Next, functions and operations of each part of the interactive information distribution apparatus 10, the user transmission unit 12, and the user reproduction unit 14 including the correspondence with the hardware configuration will be described in detail. First, the user transmission unit 12 will be described.
[0040]
As shown in FIG. 1, the user transmission unit 12 includes a voice input unit M10 that inputs a user's voice, a voice data generation unit M12 that generates digital voice data from the voice input by the voice input unit M10, and a voice. A first voice data transmission unit M14 that transmits the voice data generated by the data generation unit M12 to the dialogue information distribution device 10, and a position data transmission unit M16 that transmits data indicating where the user is to the dialogue information distribution device 10. The transmission / non-transmission selection unit M18 for setting whether to transmit data from the first audio data transmission unit M14 and the position data transmission unit M16.
[0041]
The voice input unit M10 corresponds to the microphone 132 as a hardware configuration of the user transmission unit 12 illustrated in FIG. As the microphone 132 of the embodiment, a microphone having a strong directivity is used so as not to pick up sounds other than the user's voice. The user can adjust the mounting position of the microphone 132 so that only the user's voice can be recognized by using the microphone volume adjustment provided on the operation panel 126. The sound data generation unit M12 corresponds to a sound I / O 131 as a hardware configuration, and generates digital sound data from the sound input by the sound input unit M10. That is, the voice data generation unit M12 performs amplification and modulation on the voice input by the voice input unit M10.
[0042]
The first audio data transmitter M14 corresponds to the output interface 127 and the audio data transmitter 128 as hardware configurations. In the embodiment, a radio channel for transmission is uniquely assigned to each user transmission unit 12, and audio data is transmitted by radio using the assigned radio channel. The position data transmission unit M16 corresponds to the output interface 129 and the unique signal transmitter 130 as hardware configurations. A unique user ID number is stored in a predetermined address of the ROM 123 of each user transmission unit 12, and the position data transmission unit M16 uses the wireless channel determined in advance for transmitting and receiving position data. Send wirelessly. Note that the wireless output of the position data transmission unit M16 is weaker than that of the first audio data transmission unit M14. The reason is related to detection of position data, and details will be described later.
[0043]
The transmission / non-transmission selection unit M18 corresponds to the operation panel 146, the CPU 141, or the like as a hardware configuration. Specifically, whether to transmit data from the first audio data transmission unit M14 and the position data transmission unit M16 can be set by an On / Off switch provided on the operation panel 146.
[0044]
As shown in FIG. 1, the dialogue information distribution apparatus 10 includes a first audio data receiving unit M20 that receives audio data transmitted from the first audio data transmitting unit M14 of the user transmission unit 12, and a first audio data receiving unit. A voice data buffer unit M22 that stores voice data received by the unit M20 and a user ID number received together with the voice data for each user, and temporarily speaks voice data stored in the voice data buffer unit M22. Utterance time measuring unit M24 that measures the voice and silent time, and a plurality of position data receiving units M26 installed at a plurality of locations that receive the position data transmitted from the position data transmitting unit M16 of the user transmission unit 12. The position determination unit M28 that determines a user at the same place based on the position data received by the position data reception unit M26, and a dialogue between a plurality of people Proximity keyword storage unit M30 that stores a pair of keywords that are considered to be spoken in time in the process, and the proximity keyword stored in proximity keyword storage unit M30 is stored in the audio data stored in audio data buffer unit M22. Proximity keyword detection unit M32 that detects whether it is included, simultaneous utterance keyword storage unit M34 that stores a keyword that can be uttered by another dialogue participant during a dialogue participant during the dialogue process, and this simultaneous utterance A simultaneous utterance keyword detection unit M36 for detecting whether or not the simultaneous utterance keyword stored in the keyword storage unit M34 is included in the voice data stored in the voice data buffer unit M22, and a dialog participant for determining a dialog participant among the users Stores information related to the determination unit M38 and the user group that is the unit of audio data distribution Group data storage unit M40, a distribution keyword detection unit M42 that detects whether or not the distribution keyword is included in the audio data stored in the audio data buffer unit M22, and the determination result and group of the dialogue participant determination unit M38 A distribution destination determination unit M44 that determines a distribution destination of the audio data stored in the audio data buffer unit M22 according to the group data stored in the data storage unit M40, and a distribution destination determined by the distribution destination determination unit M44 A second audio data transmitting unit M46 that transmits the audio data to the user reproduction unit 14 possessed by the user.
[0045]
The first audio data receiving unit M20 corresponds to the multi-channel receiver 93, the interface 94, the CPU 21, and the like as the hardware configuration of the dialogue information distribution apparatus 10 illustrated in FIG. The first audio data receiving unit M20 always waits for all radio channels assigned to each user transmission unit 12, and stores the radio channel and user ID number (stored in the position data transmission unit M16 of the user transmission unit 12). (Same as that to be transmitted) is stored. The first audio data receiving unit M20 outputs the received audio data and the user ID number to the audio data buffer unit M22 so that the other functional units can identify which user's audio data.
[0046]
The audio data buffer unit M22 corresponds to the main memory 25, the hard disk 84, or the like as a hardware configuration. The voice data and the user ID number stored in the voice data buffer unit M22 are used for the dialog participant determination by the dialog participant determination unit M38 and the distribution destination determination of the dialog information by the distribution destination determination unit M44.
[0047]
The utterance time measuring unit M24 corresponds to the timer 68, the CPU 21, or the like as a hardware configuration. The utterance time measuring unit M24 uses the utterance time and silentness for voice data corresponding to the user ID number among the voice data stored in the voice data buffer unit M22 with respect to the user ID number passed from the dialogue participant determining unit M38. Speech time data indicating how time is distributed along the time axis is generated, and the speech time data is returned to the dialog participant determination unit M38 as a result.
[0048]
FIG. 5 is an explanatory diagram showing an example of a dialogue performed between the user A and the user B between the time T1 and the time T2 stored in the voice buffer unit, and FIG. 6 is a dialogue illustrated in FIG. It is explanatory drawing which shows an example of the generation time data produced | generated based on this. FIG. 6A shows the utterance time data of the user A, and FIG. 6B shows the utterance time data of the user B. In the table of FIG. 6, values indicating the time-series order are stored in the leftmost column, and the time of utterance or unvoiced is stored in the center column (in the embodiment, 1/100 second is an effective digit). In the rightmost column, a value indicating the distinction between utterance and unvoiced is stored. The determination of whether or not the utterances performed when generating the utterance time data shown in the figure is temporally continuous (determination of whether or not the data should be stored in the next line as another utterance time) It is determined by whether or not the time when the user's voice is interrupted exceeds a certain time (for example, 0.2 seconds).
[0049]
The position data receiving unit M26 corresponds to a receiver 97, an interface 98, or the like as a hardware configuration. There are a plurality of position data receiving units M26 in the embodiment, and the receiving ranges are arranged so that the receiving ranges do not overlap each other. A receiving unit ID number is uniquely assigned to each position data receiving unit M26. When the position data receiving unit M26 receives the position data (= user ID number) transmitted from the position data transmitting unit M16, the position data receiving unit M26 directs the ID number of the position data receiving unit M26 and the received position data to the position determining unit M28. Output. The position data receiving unit M26 is arranged such that the position data receiving unit M26 that can receive the position data transmitted from the position data transmitting unit M16 is limited to one in consideration of the wireless output of the position data transmitting unit M16. ing.
[0050]
The position determination unit M28 corresponds to the CPU 21 as a hardware configuration. In the embodiment, the position determination unit M28 performs determination every predetermined time interval. The position determination unit M28 stores all the position data (= user ID number) and the receiving unit ID number sent from the position data receiving unit M26 at predetermined time intervals, and associates them with the same receiving unit ID number. All user ID numbers are classified so that they are elements of one set. Then, this set is output toward the dialogue participant determination unit M38. Note that the recording associated with such processing is erased every predetermined time, and the same processing is repeated.
[0051]
The proximity keyword storage unit M30 corresponds to a hard disk 84 or the like as a hardware configuration. In the proximity keyword storage unit M30, the first keyword that appears first in the dialogue and the second keyword that appears next as a response to the first keyword are used as a pair of proximity keywords, and the proximity keyword is displayed. Stored as data. Proximity keywords include: 1) Greetings / calls to the other party (“Good morning”, “Mr. **”, etc.) and responses (“Good morning”, “Yes”, etc.) 2) Questions / questions to the other party (“A little "Is it okay" or "Is that there?") And its response ("I don't care", "Is it here", etc.) 3) Confirmation against the other party ("Is this OK?"("Noproblem","I'mfine", etc.).
[0052]
The proximity keyword detection unit M32 corresponds to the CPU 21, the main memory 25, the hard disk 84, and the like as a hardware configuration. When the proximity keyword detection unit M32 receives a set having the user ID number as an element from the dialogue participant determination unit M38, the proximity keyword detection unit M32 takes time from the voice data stored in the voice data buffer unit M22 to the voice data corresponding to the user ID number. It is detected whether the above-mentioned proximity keyword appears in close proximity. Here, the elements of the set are a plurality of users who are considered to participate in the dialogue, and it is considered that the dialogue is established between the users when the proximity keyword is detected. The proximity keyword detection unit M32 is directed to the dialogue participant determination unit M38 as a detection result when the proximity keyword is detected by proximity in time (within 1 second in the embodiment), otherwise FALSE is detected. Output.
[0053]
The simultaneous utterance keyword storage unit M34 corresponds to a hard disk 84 or the like as a hardware configuration. The keywords stored in the simultaneous utterance keyword storage unit M34 include a syntactic expression (such as “Yes”) or an emotional expression (such as “O” or “I see”) that prompts the other person's story, or an interrupt that indicates what he / she wants to speak. This includes expressions (such as “um”, “a little”, “ano”). In the embodiment, a keyword that has a short utterance time (within 2 seconds) is stored as the simultaneous utterance keyword.
[0054]
The simultaneous utterance keyword detection unit M36 corresponds to the CPU 21, the main memory 25, the hard disk 84, and the like as a hardware configuration. When the user ID number is passed from the dialogue participant determination unit M38, the simultaneous speech keyword detection unit M36 has a short utterance time zone in the audio data corresponding to the user ID number among the audio data stored in the audio data buffer unit M22. It is detected whether the above-mentioned simultaneous utterance keyword appears within 2 seconds in the embodiment. If it is detected, TRUE is output, and if not, FALSE is output as a detection result to the dialog participant determination unit M38.
[0055]
The dialogue participant determination unit M38 corresponds to the CPU 21, the main memory 25, the hard disk 84, and the like as a hardware configuration. The principle algorithm for determining the participant of a dialog is that when one person is speaking in the dialog, the other person is almost silent, so that the utterance part of one user fits in the silent part of another user in time. If it continues continuously in time series, it can be determined that those users are interacting. FIG. 7 is an explanatory view exemplifying a state in which a dialogue is generated by the users A, B, and C using a principle algorithm. 7A shows the utterance time zones a1, a2 and a3 of the user A, FIG. 7B shows the utterance time zones b1 and b2 of the user B, and FIG. 7C shows the utterance time of the user C. Bands c1, c2, and c3 are shown. FIG. 6D shows the relative positions of the user A, B, and C in the speech time zone. That is, the dialog participant determination unit M38 compares the speech and silent time values with the utterance time data of a plurality of users determined to be at the same position by the position determination unit M28, and determines whether they can be combined. To do. Through this process, you can tell whether you were in the same place by accident, such as passing through a corridor, or whether you are actually interacting without deep analysis of the audio content.
[0056]
Here, when a large number of users are gathered in one place and multiple conversations are progressing separately, it is uniquely determined which user is interacting only with the time of the user's utterance and the time of the silent part. It may not be detected. In this case, from the content of the utterance, 1) greeting / calling and responding to the other party, 2) question / question to the other party, 3) finding the part where the confirmation and response to the other party appear close in time, Can detect conversation participants. In order to perform this process, the dialogue participant determination unit M38 passes a set having the user ID numbers of a plurality of users considered to be participating in the dialogue as elements to the proximity keyword detection unit M32 so that the plurality of users interact with each other. Have them check if they are doing. Furthermore, even if a dialog participant is speaking in a dialog, another dialog participant may speak. In this case, there is a combined expression, a moving expression, or an interrupt expression. As an exception to the above algorithm, such a remark is ignored for determination. In order to perform the processing at the time of the exception, the dialogue participant determination unit M38 passes the user ID number of the user who has spoken during the speech of other participants to the simultaneous speech keyword detection unit M36, and the user's speech is ignored as described above. I'm checking to see if it's okay.
[0057]
In the dialogue participant determination unit M38, for example, a processing routine illustrated in FIG. 8 is executed as a process obtained by adding such an exceptional process to the principle algorithm. That is, in the dialogue participant determination unit M38, first, a set having the user ID numbers of users at the same place as elements is received from the position determination unit M28 (step S100), and the user ID numbers included in this set are sequentially generated time. All of the occurrence time data for each user ID number included in this set is obtained by passing it to the measurement unit M24 (step S102). And the process which finds out the combination in which utterance / unvoice fits from the obtained utterance time data is performed (step S104). When a uniquely determined combination is found (steps S106 and S108), the user in the combination is determined to be a dialog participant (step S110), and this routine is terminated.
[0058]
On the other hand, when a combination is found, but the combination is not uniquely determined, a plurality of sets whose elements are user ID numbers corresponding to the possible combinations are generated and passed to the proximity word detection unit M32 to obtain detection results. (Step S112). The combination in which the proximity keyword appears is determined from the result from the proximity keyword detection unit M32 (step S114), and when there is a combination in which the proximity keyword has appeared, the user of the combination in which the proximity keyword has appeared is determined as a conversation participant ( Step S116), this routine is finished. When there is no combination in which the proximity keyword appears, it is determined that no dialog participant is found (step S126), and this routine is terminated.
[0059]
Further, when a combination in which utterance / unvoice fits is not found from the utterance time data in step S106, it is determined whether there is a combination in which some utterances overlap (step S118). When there is a combination in which some utterances overlap, the user ID number of the user who uttered during the utterance of other users among the users in the combination is passed to the simultaneous utterance keyword detection unit M36 to obtain a detection result (step S120). When the result by the simultaneous utterance keyword detection unit M36 is “TRUE”, it is determined that the overlap of the utterances can be ignored (step S122), and the user in the combination in which some utterances overlap is determined as the conversation participant (step S124). ), This routine is terminated.
[0060]
If it is determined in step S118 that there is no combination in which some utterances overlap, or if it is determined in step S122 that the result of the simultaneous utterance keyword detection unit M36 is “FALSE” and the overlap of utterances cannot be ignored, the dialogue participant Is not found (step S126), and this routine is terminated.
[0061]
The group data storage unit M40 corresponds to a hard disk 84 or the like as a hardware configuration. In the embodiment, a plurality of user ID numbers indicating distribution destinations and keywords related to distribution conditions (hereinafter referred to as distribution keywords) are associated with each other as one group data. The meaning represented by the group data indicates that when a dialogue including a distribution keyword is performed between the users indicated by the user ID numbers, the dialogue is delivered to other users of the group. For example, when one group data is stored with the user ID numbers of all members of a project team and the terms related to the project as distribution keywords, when a plurality of project members are engaged in a conversation related to the project, The dialogue is also distributed to project members. If no delivery keyword is set, the dialogue is delivered to other users in the group regardless of the dialogue content. The group data can be set by inputting from the keyboard 72 or the like.
[0062]
The distribution keyword detection unit M42 corresponds to the CPU 21, the main memory 25, or the like as a hardware configuration. When a user ID number indicating a conversation participant and a distribution keyword are passed from the distribution keyword detection unit M42 and the distribution destination determination unit M44, among the audio data stored in the audio data buffer unit M22, the passed user ID number is set. It is detected whether or not a distribution keyword is included in the corresponding audio data. If it is detected, TRUE is returned as a result, and FALSE is returned otherwise.
[0063]
The distribution destination determination unit M44 corresponds to the CPU 21, the main memory 25, or the like as a hardware configuration. In the processing in the delivery destination determination unit M44, a set whose elements are user ID numbers indicating users determined as dialog participants by the dialog participant determination unit M38 is passed from the dialog participant determination unit M38 to the delivery destination determination unit M44. Is started. FIG. 9 is a flowchart illustrating an example of a delivery destination determination processing routine executed by the delivery destination determination unit M44. As shown in the figure, the distribution destination determination unit M44 first receives a set having the user ID number of the dialog participant as an element from the dialog participant determination unit M38 (step S200) and stores it in the group data storage unit M40. Processing for determining whether there is any group data that includes all user ID numbers that are elements of the received set is executed (steps S202 and S204). If there is group data to be included, it is determined whether or not a distribution keyword is included in the group data (step S206). When the group data is included in the distribution keyword, the user ID number of the conversation participant and the distribution keyword are passed to the distribution keyword detection unit M42 to receive the result (step S208), and whether or not the distribution keyword is included in the dialog. Determination is made (step S210). When the distribution keyword is included in the dialog, it is determined that the user ID included in the group data is not a dialog participant as a distribution destination (step S212), and this routine is terminated.
[0064]
On the other hand, even when it is determined in step S206 that the distribution keyword is not included in the group data, the user ID included in the group data is determined as a distribution destination (step S212). End the routine.
[0065]
When there is no group data included in step S204 or when the distribution keyword is not included in the dialog in step S210, it is determined that there is no distribution destination (step S214), and this routine is terminated.
[0066]
The second audio data transmission unit M46 corresponds to a multi-channel transmitter 95, an interface 96, or the like as a hardware configuration. In the embodiment, a radio channel is uniquely assigned to each user reproduction unit 14, and the second audio data transmitting unit M46 stores a correspondence relationship between the assigned radio channel and the user ID number. The second audio data transmission unit M46 wirelessly transmits the digital audio data stored in the audio data buffer unit M22 using the radio channel corresponding to the user ID number indicating the distribution destination according to the determination of the distribution destination determination unit M44. .
[0067]
As shown in FIG. 1, the user reproduction unit 14 includes a second audio data receiving unit M50 that receives the digital audio data transmitted by the second audio data transmitting unit M46 of the dialogue information distribution apparatus 10, and the second audio data. An audio conversion unit M52 that converts the digital audio data received by the reception unit M50 into analog audio data, and an audio output unit that modulates and amplifies the analog audio data sent from the audio conversion unit M52 and outputs the audio as a sound heard by the user M54.
[0068]
The second audio data receiving unit M50 corresponds to the audio data receiver 150 and the input interface 149 as the hardware configuration of the user reproduction unit 14 illustrated in FIG. In the embodiment, the second audio data receiving unit M50 is assigned a unique radio channel to each user reproduction unit 14, and waits for reception of only the assigned radio channel. The sound conversion unit M52 corresponds to a sound I / O 151 as a hardware configuration. The audio output unit M54 corresponds to a sound I / O 151 and a speaker 152 as hardware configurations. The sound output unit M54 can adjust the sound volume with the operation knob of the operation panel 146.
[0069]
According to the dialog information distribution system 5 of the embodiment described above, it is possible to determine the dialog participants participating in the dialog from the voice data of each user. In addition, since a dialog participant is determined by using a proximity keyword including an expression representing a greeting, a call, a question, a question, a confirmation, and the like and a response to the expression, a more appropriate dialog participant can be determined. In addition, since the combination is determined by ignoring the simultaneous utterances using expressions representing the synonyms, impressions, interruptions, etc. as the simultaneous utterance keywords, it is possible to detect the conversation more accurately and to determine the more appropriate conversation participants. it can.
[0070]
Further, according to the dialogue information distribution system 5 of the embodiment, the distribution destination can be determined based on the determination of the dialog participant. In addition, since the group data is used, voice data related to the dialogue can be distributed to those who do not participate in the dialogue but need dialogue information. Furthermore, since the distribution keyword is used, the voice data related to the dialogue can be distributed to those who are involved in the distribution keyword.
[0071]
Furthermore, according to the dialogue information distribution system 5 of the embodiment, since voice data is transmitted / received to / from each user transmission unit 12 and each user reproduction unit 14 using a radio channel, even an accidentally started dialogue is received. And can be delivered.
[0072]
According to the dialogue information distribution system 5 of the embodiment, the confidentiality of the dialogue can be ensured by providing the transmission / non-transmission selection unit M18 in the user transmission unit 12.
[0073]
In the dialogue information distribution system 5 of the embodiment, voice is used as the dialogue information. However, the voice transmission function is provided to the user transmission unit 12 or the dialogue information distribution device 10 to convert the dialogue voice into text and distribute it to the user. The dialogue information may be composed of text information. In this case, processing is performed using voice information in the dialogue participant detection processing and distribution destination determination processing, but either or both of these are performed based on text information converted from dialogue voice to text. be able to.
[0074]
In the dialogue information distribution system 5 of the embodiment, the voice data from the dialogue participants is input using a plurality of wireless channels and the dialogue is distributed. However, since each dialogue participant only needs to be identified, the method is not limited. For example, in addition to using an assigned dedicated communication path such as frequency band division or time division, it may be performed by a single radio channel. Examples of what is performed on a single wireless channel include those in which audio data is transmitted by packet transmission. At this time, if the ID of each conversation person is attached to the header of the packet, each conversation participant and delivery destination can be identified.
[0075]
In the dialogue information distribution system 5 of the embodiment, voice is used as the dialogue information. However, a CCD camera or the like is provided in the position data receiving unit of the user transmission unit or the base unit, and facial expressions of each user are included in the dialogue information. These images (for example, moving images) may be associated with each other.
[0076]
Furthermore, in the dialogue information distribution system 5 of the embodiment, the user location information is used to improve the accuracy of detection of the dialogue participants, and a plurality of location data receiving units are provided in the base unit and transmitted from the user transmission unit. The position of the user is specified by which of the received position data is received. The position data may be configured such that data indicating absolute geographic information is transmitted using GPS or the like and received by one or a plurality of position data receiving units.
[0077]
Alternatively, in the dialogue information distribution system 5 of the embodiment, in order to increase the accuracy of detection of dialogue participants, a function for detecting the approach of the other user transmission unit 12 to the user transmission unit 12 (for example, beam reception / emission, small size). It is possible to adopt a configuration in which a user at a relatively close distance is found and this is used for detection of a conversation participant by providing transmission / reception of output radio). Furthermore, when the dialog participant is detected by using the relative distance of the user transmission unit 12 as described above, the dialog information delivery excluding the position data receiving unit M26 and the first audio data receiving unit M20 is performed. By moving the functional unit of the apparatus 10 to the user transmission unit 12, the interaction information distribution apparatus 10 can be eliminated, and the interaction information distribution system can be configured by the user transmission unit 12 and the user reproduction unit 14.
[0078]
In the interactive information distribution system 5 of the embodiment, the position information for improving the accuracy of detecting the conversation participants is transmitted / received by specific radio signals. However, biological information such as heat from the body, or a screen on which the user exists An interactive participant may be detected by image analysis.
[0079]
In the interactive information distribution system 5 of the embodiment, the user transmission unit 12 and the user reproduction unit 14 are separate units, but this may be configured as one user unit. In this case, when a voice is input to the voice input unit M10, another dialogue is distributed and played back during the dialogue by cooperation between the two function units that the voice output unit M54 does not output a voice. Can be prevented.
[0080]
In the interactive information distribution system 5 of the embodiment, the user reproduction unit 14 immediately outputs the transmitted audio data. However, the second audio data can be temporarily stored in the user reproduction unit 14. A buffer unit and a playback / stop selection unit that allows the user to turn on / off playback are provided. When Off is selected, the distributed audio data is temporarily stored, and stored when On is selected. The audio data may be sequentially played back so as to meet the convenience of the listening user. Further, when this modification is applied to the above one user unit, the voice data can be automatically stored as “Off” during the dialogue.
[0081]
In the interactive information distribution system 5 of the embodiment, the interactive information distribution apparatus 10 is configured to install software that causes a computer to function as the interactive information distribution apparatus 10 of the embodiment on a general-purpose computer, but stores all processing programs. You may comprise as a special purpose machine provided with ROM.
[0082]
As described above, the embodiment of the present invention has been described with reference to examples. However, the present invention is not limited to these examples. For example, a general-purpose computer functions as the interactive information distribution apparatus 10 of the examples. Needless to say, the present invention can be implemented in various forms within a range not departing from the gist of the present invention, such as a form of a recording medium on which software to be recorded is recorded. Note that the recording medium includes media that can record signals using various methods such as magnetism and light, for example, all media such as a magnetic disk, CD-ROM, and DVD-ROM.
[Brief description of the drawings]
FIG. 1 is a block configuration diagram showing an outline of a configuration of a dialogue information distribution system 5 as an embodiment of the present invention as functional blocks.
FIG. 2 is a configuration diagram illustrating an outline of a hardware configuration of the dialogue information distribution apparatus 10 according to the embodiment.
FIG. 3 is a configuration diagram illustrating an outline of a hardware configuration of a user transmission unit 12 according to the embodiment.
FIG. 4 is a configuration diagram illustrating an outline of a hardware configuration of a user reproduction unit 14 according to the embodiment.
FIG. 5 is an explanatory diagram illustrating an example of a dialogue performed between a user A and a user B between time T1 and time T2 stored in a voice buffer unit.
6 is an explanatory diagram illustrating an example of generation time data generated based on the dialogue illustrated in FIG. 5. FIG.
FIG. 7 is an explanatory view exemplifying a state in which a dialog is generated by a user A, B, and C using a principle algorithm.
FIG. 8 is a flowchart showing an example of a processing routine for determining a dialog participant in a dialog participant determination unit M38.
FIG. 9 is a flowchart illustrating an example of a delivery destination determination processing routine executed by a delivery destination determination unit M44.
[Explanation of symbols]
5 Dialog information distribution system, 10 Dialog information distribution device, 12 User transmission unit, 14 User playback unit, 20 Arithmetic processing unit, 21 CPU, 22 processor bus, 23 cache memory, 24 cache controller, 25 main memory, 30 bus Bridge, 32 local bus, 40 controller section, 42 external bus, 44 graphics controller, 46 SCSI controller, 48 bus bridge, 50 DMA controller, 52 real-time clock, 54 complex I / O port, 56 sound I / O, 60 I / O section, 62 ISA slot, 64 keyboard interface, 66 interrupt controller, 68 timer, 72 keyboard, 73 2-button mouse, 74 speaker, 75 microphone, 76 color CRT, 82 Floppy disk device, 84 hard disk, 86 parallel port, 88 printer, 90 serial port, 92 modem, 93 multichannel receiver, 94 interface, 95 multichannel transmitter, 96 interface, 97 receiver, 98 interface, M10 audio input unit M12 voice data generation unit, M14 first voice data transmission unit, M16 position data transmission unit, M18 transmission / non-transmission selection unit, M20 first voice data reception unit, M22 voice data buffer unit, M24 utterance time measurement unit, M26 Position data reception unit, M28 position determination unit, M30 proximity keyword storage unit, M32 proximity keyword detection unit, M34 simultaneous utterance keyword storage unit, M36 simultaneous utterance keyword detection unit, M38 dialogue participant determination unit, M40 group data storage unit, M 42 distribution keyword detection unit, M44 distribution destination determination unit, M46 second audio data transmission unit, M50 second audio data reception unit, M52 audio conversion unit, M54 audio output unit.

Claims (16)

入力された音声データから対話を検出すると共に該対話に関与する者へ対話情報を配信する対話情報配信システムであって、
対話に参加可能な各人が携帯し、該各人の音声データを識別可能に送信する携帯送信手段と、
前記各人が携帯し、音声データを受信する携帯受信手段と、
前記携帯送信手段により送信された前記各人の音声データを受信する音声データ受信手段と、
該受信した前記各人の音声データに基づいて前記各人のうち対話に参加している対話参加者を判定する対話参加者判定手段と、
該判定結果に基づいて前記各人のうち前記対話に関する音声データの配信を受ける配信者を選定する配信者選定手段と、
該選定された配信者が携帯する前記携帯受信手段が受信可能に前記対話に関する音声データを送信する音声データ送信手段と、
有し、
前記対話参加者判定手段は、
前記各人の音声データを有声音データと無声音データとに区別すると共に該区別された有声音データと無声音データの時間を計測する区別計測手段と、
該区別された有声音データと無声音データおよび該計測された有声音データと無声音データの時間に基づいて前記対話を検出する対話検出手段と、
該検出された対話を構成する音声データに基づいて前記対話参加者を選定する対話参加者選定手段と、
前記区別された有声音データから第1のキーワードと該第1のキーワードと所定の関係で対をなす第2のキーワードとからなる所定関係ワードを検出する所定関係ワード検出手段と、
該所定関係ワード検出手段により前記所定関係ワードが検出されたとき、前記第1のキーワードの有声音データの基をなす音声データと該第2のキーワードの有声音データの基をなす音声データとが対話の関係にあると判定する対話関係判定手段と、
を備え、
前記対話検出手段は、前記対話関係判定手段の判定結果に基づいて対話を検出する手段である対話情報配信システム。
A dialogue information distribution system for detecting a dialogue from input voice data and delivering dialogue information to a person involved in the dialogue,
A portable transmission means for carrying each person capable of participating in the dialogue and transmitting the voice data of each person in an identifiable manner;
A portable receiving means for carrying each person and receiving voice data;
Voice data receiving means for receiving each person's voice data transmitted by the portable transmission means;
A dialog participant determination means for determining a dialog participant participating in a dialog among each person based on the received voice data of each person;
A distributor selecting means for selecting a distributor who receives audio data related to the dialogue among the persons based on the determination result;
Voice data transmitting means for transmitting voice data related to the dialogue so that the portable receiving means carried by the selected distributor can receive;
Have
The dialogue participant determination means includes
Distinction measuring means for distinguishing voice data of each person into voiced sound data and unvoiced sound data and measuring the time of the distinguished voiced sound data and unvoiced sound data;
Dialog detecting means for detecting the dialog based on the time of the distinguished voiced sound data and unvoiced sound data and the measured voiced sound data and unvoiced sound data;
A dialog participant selecting means for selecting the dialog participant based on audio data constituting the detected dialog;
A predetermined relation word detecting means for detecting a predetermined relation word composed of a first keyword and a second keyword paired with the first keyword in a predetermined relation from the distinguished voiced sound data;
When the predetermined relational word is detected by the predetermined relational word detecting means, the voice data forming the basis of the voiced sound data of the first keyword and the voice data forming the basis of the voiced sound data of the second keyword are A dialogue relation judging means for judging that there is a dialogue relation;
With
The dialog information distribution system , wherein the dialog detection means is means for detecting a dialog based on a determination result of the dialog relation determination means .
請求項1記載の対話情報配信システムであって、
前記第1のキーワードは、挨拶,呼びかけ,質問,疑問,確認等を表わす表現であり、
前記第2のキーワードは、前記挨拶,呼びかけ,質問,疑問,確認を表わす表現に対応する応答の表現である対話情報配信システム。
The interactive information distribution system according to claim 1,
The first keyword is an expression representing greetings, calls, questions, questions, confirmations, etc.
The dialogue information distribution system, wherein the second keyword is an expression of a response corresponding to an expression representing the greeting, a call, a question, a question, or a confirmation .
請求項1又は2に記載の対話情報配信システムであって、
前記所定の関係は、前記第1のキーワードの発現時間から所定時間内に前記第2のキーワードが発現する関係である対話情報配信システム。
The interactive information delivery system according to claim 1 or 2 ,
The interactive information distribution system , wherein the predetermined relationship is a relationship in which the second keyword is expressed within a predetermined time from an expression time of the first keyword .
請求項1から3のいずれか1項に記載の対話情報配信システムであって、
前記対話参加者判定手段は、さらに、前記区別された有声音データから第3のキーワードを検出するキーワード検出手段を備え、
前記対話検出手段は、さらに、前記キーワード検出手段により前記区別された有声音データから前記第3のキーワードが検出されたとき、該検出された有声音データを無声音データとみなして前記対話を検出する手段である対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 3 ,
The dialog participant determining means further comprises keyword detecting means for detecting a third keyword from the distinguished voiced sound data,
The dialogue detecting means further detects the dialogue by regarding the detected voiced sound data as unvoiced sound data when the third keyword is detected from the distinguished voiced sound data by the keyword detecting means. Dialog information distribution system as a means .
請求項4に記載の対話情報配信システムであって、
前記第3のキーワードは、相づち,感動,割り込み等を表わす表現である対話情報配信システム。
The interactive information distribution system according to claim 4,
The dialogue information distribution system , wherein the third keyword is an expression representing a combination, impression, interruption, or the like .
請求項1から5のいずれか1項に記載の対話情報配信システムであって、
前記携帯送信手段は、さらに、音声データと異なる前記各人毎の所定信号を無線送信する所定信号送信手段を備え、
前記音声データ受信手段は、さらに、複数の異なる場所に配置され、前記所定信号送信手段により無線送信された前記各人毎の所定信号を受信する複数の所定信号受信手段を備え、
前記対話参加者判定手段は、さらに、前記複数の所定信号受信手段により受信された前記各人毎の所定信号に基づいて前記各人のうち対話に参加している対話参加者を判定する手段である対話情報配信システム。
A dialogue information distribution system according to any one of claims 1 to 5 ,
The portable transmission means further includes a predetermined signal transmission means for wirelessly transmitting a predetermined signal for each person different from the voice data,
The voice data receiving means further includes a plurality of predetermined signal receiving means arranged at a plurality of different places and receiving the predetermined signal for each person wirelessly transmitted by the predetermined signal transmitting means,
The dialog participant determining means is a means for determining a dialog participant participating in the dialog among the persons based on the predetermined signal for each person received by the plurality of predetermined signal receiving means. A dialogue information distribution system.
請求項6記載の対話情報配信システムであって、
前記対話参加者判定手段は、さらに、前記複数の所定信号受信手段により受信された前記各人毎の所定信号に基づいて前記各人の位置を判定する位置判定手段を備え、
該判定された前記各人の位置と前記音声データとに基づいて前記対話参加者を判定する手段である対話情報配信システム。
The interactive information distribution system according to claim 6,
The dialog participant determining means further comprises a position determining means for determining the position of each person based on the predetermined signal for each person received by the plurality of predetermined signal receiving means,
A dialog information distribution system which is means for determining the dialog participant based on the determined position of each person and the audio data .
請求項1から7のいずれか1項に記載の対話情報配信システムであって、
前記配信者選定手段は、さらに、前記各人のうち少なくとも二人以上からなる所定のグループを設定するグループ設定手段を備え、
該設定された所定のグループに基づいて前記配信者を選定する手段である対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 7 ,
The distributor selection unit further includes a group setting unit that sets a predetermined group including at least two of the persons.
A dialog information distribution system which is means for selecting the distributor based on the set predetermined group .
請求項8記載の対話情報配信システムであって、
前記配信者選定手段は、さらに、前記対話参加者判定手段により判定された対話参加者が前記所定のグループに含まれるとき、該所定のグループに属する各人を配信者に選定する手段である対話情報配信システム。
The interactive information distribution system according to claim 8,
The distributor selecting unit is a unit that further selects each person belonging to the predetermined group as a distributor when the dialog participant determined by the dialog participant determining unit is included in the predetermined group. Information distribution system.
請求項1から9のいずれか1項に記載の対話情報配信システムであって、
前記配信者選定手段は、さらに、
特定ワードを設定する特定ワード設定手段と、
該設定された特定ワードを前記区別された有声音データから検出する特定ワード検出手段と、を備え、
該特定ワード検出手段により前記区別された有声音データから特定ワードが検出されたとき、該検出された有声音データの基となる音声データの送信者を配信者に選定する手段である対話情報配信システム。
The interactive information delivery system according to any one of claims 1 to 9,
The distributor selection means further includes:
A specific word setting means for setting a specific word;
Specific word detecting means for detecting the set specific word from the distinguished voiced sound data,
When the specific word is detected from the distinguished voiced sound data by the specific word detecting means, the dialogue information distribution is a means for selecting a sender of the voice data that is the basis of the detected voiced sound data as a distributor. system.
請求項1から10のいずれか1項に記載の対話情報配信システムであって、
前記携帯送信手段は、さらに、前記音声データを送信するか否かを選択する送信選択手段を備える対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 10,
The interactive information distribution system , wherein the portable transmission means further comprises transmission selection means for selecting whether or not to transmit the audio data .
請求項1から11のいずれか1項に記載の対話情報配信システムであって、
前記携帯受信手段は、さらに、前記音声データを受信するか否かを選択する受信選択手段を備える対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 11 ,
The interactive information distribution system , wherein the portable reception means further comprises a reception selection means for selecting whether to receive the audio data .
請求項1から12のいずれか1項に記載の対話情報配信システムであって、
前記携帯受信手段は、さらに、
前記送信した音声データを記憶する記憶手段と、
操作者の操作に基づいて前記記憶手段に記憶された音声データを出力する音声出力手段と、を備える対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 12,
The portable receiving means further includes:
Storage means for storing the transmitted audio data;
A dialogue information distribution system comprising: voice output means for outputting voice data stored in the storage means based on an operation of an operator .
請求項1から13のいずれか1項に記載の対話情報配信システムであって、
前記携帯送信手段は、さらに、一つのユニットとして構成され、
前記携帯受信手段は、さらに、前記携帯送信手段とは異なる一つのユニットとして構成 され、
前記音声データ受信手段と、前記対話参加者判定手段と、前記配信者選定手段と、前記音声データ送信手段とが前記携帯送信手段および前記携帯受信手段とは異なるユニットとして構成されてなる対話情報配信システム。
The dialogue information distribution system according to any one of claims 1 to 13,
The portable transmission means is further configured as one unit,
The portable receiving means is further configured as one unit different from the portable transmitting means ,
Dialog information distribution in which the voice data receiving means, the dialog participant determining means, the distributor selecting means, and the voice data transmitting means are configured as units different from the portable transmitting means and the portable receiving means. system.
請求項1から14のいずれか1項に記載の対話情報配信システムであって、さらに、
前記携帯送信手段と前記携帯受信手段とが一つのユニットとして構成され、
前記音声データ受信手段と、前記対話参加者判定手段と、前記配信者選定手段と、前記音声データ送信手段とが前記ユニットとは異なるユニットとして構成されてなる対話情報配信システム。
The interactive information delivery system according to any one of claims 1 to 14 , further comprising:
The portable transmission means and the portable reception means are configured as one unit,
A dialog information distribution system in which the voice data receiving means, the dialog participant determination means, the distributor selection means, and the voice data transmission means are configured as a unit different from the unit .
入力された音声データから対話を検出すると共に該対話に関与する者へ対話情報を配信する対話情報配信装置であって、
対話者から識別可能に送信された複数の音声データを受信する音声データ受信手段と、
該受信した前記音声データに基づいて対話に参加している対話者を判定する対話参加者判定手段と、
該判定結果に基づいて前記対話に関する音声データの配信先を選定する配信先選定手段と、
該選定された配信先に前記対話に関する音声データを送信する音声データ送信手段と、
を有し、
前記対話参加者判定手段は、
前記各人の音声データを有声音データと無声音データとに区別すると共に該区別された有声音データと無声音データの時間を計測する区別計測手段と、
該区別された有声音データと無声音データおよび該計測された有声音データと無声音データの時間に基づいて前記対話を検出する対話検出手段と、
該検出された対話を構成する音声データに基づいて前記対話参加者を選定する対話参加者選定手段と、
前記区別された有声音データから第1のキーワードと該第1のキーワードと所定の関係で対をなす第2のキーワードとからなる所定関係ワードを検出する所定関係ワード検出手段と、
該所定関係ワード検出手段により前記所定関係ワードが検出されたとき、前記第1のキーワードの有声音データの基をなす音声データと該第2のキーワードの有声音データの基をなす音声データとが対話の関係にあると判定する対話関係判定手段と、
を備え、
前記対話検出手段は、前記対話関係判定手段の判定結果に基づいて対話を検出する手段である対話情報配信装置。
A dialog information distribution device that detects a dialog from input voice data and distributes the dialog information to a person involved in the dialog,
Audio data receiving means for receiving a plurality of audio data transmitted in an identifiable manner from a dialogue person;
Dialog participant determination means for determining a dialog participant participating in the dialog based on the received audio data;
A delivery destination selecting means for selecting a delivery destination of audio data related to the dialogue based on the determination result;
Audio data transmission means for transmitting audio data related to the dialogue to the selected delivery destination;
Have
The dialogue participant determination means includes
Distinction measuring means for distinguishing voice data of each person into voiced sound data and unvoiced sound data and measuring the time of the distinguished voiced sound data and unvoiced sound data;
Dialog detecting means for detecting the dialog based on the time of the distinguished voiced sound data and unvoiced sound data and the measured voiced sound data and unvoiced sound data;
A dialog participant selecting means for selecting the dialog participant based on audio data constituting the detected dialog;
A predetermined relation word detecting means for detecting a predetermined relation word composed of a first keyword and a second keyword paired with the first keyword in a predetermined relation from the distinguished voiced sound data;
When the predetermined relational word is detected by the predetermined relational word detecting means, the voice data forming the basis of the voiced sound data of the first keyword and the voice data forming the basis of the voiced sound data of the second keyword are A dialogue relation judging means for judging that there is a dialogue relation;
With
The dialog information distribution device , wherein the dialog detection means is means for detecting a dialog based on a determination result of the dialog relation determination means .
JP22004299A 1999-08-03 1999-08-03 Dialog information distribution system and dialog information distribution apparatus Expired - Fee Related JP4168539B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22004299A JP4168539B2 (en) 1999-08-03 1999-08-03 Dialog information distribution system and dialog information distribution apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22004299A JP4168539B2 (en) 1999-08-03 1999-08-03 Dialog information distribution system and dialog information distribution apparatus

Publications (3)

Publication Number Publication Date
JP2001045454A JP2001045454A (en) 2001-02-16
JP2001045454A5 JP2001045454A5 (en) 2005-10-06
JP4168539B2 true JP4168539B2 (en) 2008-10-22

Family

ID=16745025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22004299A Expired - Fee Related JP4168539B2 (en) 1999-08-03 1999-08-03 Dialog information distribution system and dialog information distribution apparatus

Country Status (1)

Country Link
JP (1) JP4168539B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388416A (en) * 2010-02-25 2012-03-21 松下电器产业株式会社 Signal processing apparatus and signal processing method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4525318B2 (en) * 2004-11-30 2010-08-18 富士ゼロックス株式会社 Analysis apparatus and analysis program
JP4372729B2 (en) * 2005-07-13 2009-11-25 シャープ株式会社 Real world communication management device
JP4364251B2 (en) 2007-03-28 2009-11-11 株式会社東芝 Apparatus, method and program for detecting dialog
JP5211001B2 (en) * 2009-09-09 2013-06-12 日本電信電話株式会社 Conference communication system, conference communication method and program
JP5803617B2 (en) * 2011-11-29 2015-11-04 富士通株式会社 Speech information analysis apparatus and speech information analysis program
JP6641832B2 (en) 2015-09-24 2020-02-05 富士通株式会社 Audio processing device, audio processing method, and audio processing program
JP7218547B2 (en) * 2018-11-16 2023-02-07 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388416A (en) * 2010-02-25 2012-03-21 松下电器产业株式会社 Signal processing apparatus and signal processing method

Also Published As

Publication number Publication date
JP2001045454A (en) 2001-02-16

Similar Documents

Publication Publication Date Title
US5930752A (en) Audio interactive system
US9412377B2 (en) Computer-implemented system and method for enhancing visual representation to individuals participating in a conversation
US7698141B2 (en) Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
WO2009104564A1 (en) Conversation server in virtual space, method for conversation and computer program
US8358599B2 (en) System for providing audio highlighting of conference participant playout
JP2005277462A (en) Conference support system, proceeding forming method, and computer program
JP4150724B2 (en) Telephone interpretation system
JP2010074494A (en) Conference support device
JPWO2010113438A1 (en) Speech recognition processing system and speech recognition processing method
JP4168539B2 (en) Dialog information distribution system and dialog information distribution apparatus
TWI795759B (en) Online meeting system
JP6420514B1 (en) Conversation robot
JP5267995B2 (en) Conversation group grasping device, conversation group grasping method, and program
US20030120492A1 (en) Apparatus and method for communication with reality in virtual environments
JP2010176544A (en) Conference support device
EP3819904A1 (en) Method of determining the speech in a web-rtc audio or video communication and/or collaboration session and communication system
JP2001045454A5 (en) Dialogue information distribution system, dialogue information distribution device, dialogue information distribution method, and storage medium
JP2009053342A (en) Minutes preparation apparatus
JP2000259389A (en) Interaction recording system and interaction recording synthesizer
EP1453287B1 (en) Automatic management of conversational groups
JP2006252458A (en) Voice signal processor for processing voice signals of a plurality of speakers, and program
JP6523974B2 (en) COMMUNICATION SUPPORT DEVICE, COMMUNICATION SUPPORT METHOD, AND PROGRAM
JPH07199989A (en) Speech recognition device
US20220013128A1 (en) Conversation support system, conversation support method and computer readable storage medium
JPH07334458A (en) Information interchange supporting device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050523

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080728

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130815

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees