JP2004279897A - Method, device, and program for voice communication record generation - Google Patents
Method, device, and program for voice communication record generation Download PDFInfo
- Publication number
- JP2004279897A JP2004279897A JP2003073455A JP2003073455A JP2004279897A JP 2004279897 A JP2004279897 A JP 2004279897A JP 2003073455 A JP2003073455 A JP 2003073455A JP 2003073455 A JP2003073455 A JP 2003073455A JP 2004279897 A JP2004279897 A JP 2004279897A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- topic keyword
- synonym
- time information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声通信記録生成方法、装置及びプログラムに関する。特に、インターネットを利用した遠隔通信会議において、取得された音声情報等の内容を、利用者が容易に検索できる記録を作成するものに関する。
【0002】
【従来の技術】
従来、音声又は画像等のマルチメディア情報を用いた会議システムにおいて、会議中の重要な項目を短時間で簡便に編集できる装置があった(例えば、特許文献1参照)。
【0003】
この装置は、会議によって得られたマルチメディア情報の時間関係を解析し、発話者を識別し、マルチメディア情報からキーワードを抽出する。特に、音声情報に対しては音声認識処理によりキーワードを抽出する。また、発話者の識別は、音声情報が入力された装置識別番号及び特徴抽出処理によって行う。更に、この装置は、そのキーワード及びその発話者等に重み付けすることにより、会議の重要度を時系列的に表す検索用ファイルを蓄積する。これら処理は、会議中にリアルタイムに行われる。これにより、会議途中に現れたキーワード、参照資料、資料参照者又は発話者、会議の時間帯等に基づいて、重要な項目を含むシーンを絞り込んでいくことが可能となり、会議録作成に要する時間が大幅に削減できる。
【0004】
また、議事録作成を支援する仕組みとしては、複数の発話者の音声情報が混在している混在データを、発話者毎の音声情報に分離し、発話者を特定して音声議事録を作成する方法もあった(例えば、特許文献2参照)。
【0005】
更に、音声や映像のみならず、グラフィック情報をも記録し、要求に応じて要点だけを送り出す、コンサルテーション・カンファレンスシステムも実現されている(例えば、特許文献3参照)。
【0006】
【特許文献1】
特許第3185505号公報
【特許文献2】
特開2003−5790号公報(特願2001−191289号)
【特許文献3】
特開平5−298340号公報(特願平4−96783号)
【0007】
【発明が解決しようとする課題】
特許文献1によれば、会議録の作成は、会議録作成者による検索条件の入力により行うことを想定している。特に、所望するデータに到達できなかった場合、更なる検索条件の入力を会議録作成者に要求する。従って、会議録作成者による唯一の詳細な会議録を作成することはできる。しかし、会議参加者それぞれによって、所望される会議録の要点は異なる場合も多い。即ち、特許文献1によれば、それぞれの会議参加者に対して異なる会議録を提供することはできなかった。
【0008】
尚、特許文献2によれば発話者特定に精度の障壁があり、特許文献3によればインデクッス機能がなく利便性に欠けるという難点もある。
【0009】
即ち、従来の技術によれば、会議録作成者のみの便宜を図るものであり、会議録を必要とする者の所望条件によって要点がまとめられた会議録を提供するものではなかった。
【0010】
そこで、本発明は、会議録を提供するに際し、会議録を必要とする者の所望条件によって要点がまとめられた会議録を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明は、遠隔通信会議について、それぞれの参加者によって用いられる2以上の端末と、該会議における音声情報を記録し且つ会議録を生成する音声通信記録生成装置とを用いた音声通信記録生成方法、装置及プログラムに関する。
【0012】
本発明による音声通信記録生成方法によれば、
少なくとも2以上の各地点からの音声情報と、当該音声情報が入力された時刻情報とともに蓄積する音声蓄積手段から、音声情報を音声認識してテキスト情報に変換する過程と、
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語をテキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する過程と、
入力された検索要求情報のうち記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する過程と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を音声蓄積手段から出力する過程と、を有する。
【0013】
また、本発明の音声通信記録生成方法における他の実施形態によれば、音声情報の発話区間及び無音区間を検出する過程を有するものであってもよい。
【0014】
更に、本発明の音声通信記録生成方法における他の実施形態によれば、話題キーワードに対する類義語を予め蓄積した類義語蓄積手段を更に用いて類義語を検索し、話題キーワードと共に進行位置をテキスト情報にマーク付けすることも好ましい。
【0015】
更に、本発明の音声通信記録生成方法における他の実施形態によれば、音声情報に会議特定情報が付与されており、音声情報に他の情報が紐付けられていることも好ましい。
【0016】
本発明の音声通信記録生成装置によれば、
少なくとも2以上の各地点からの音声情報と、当該音声情報が入力された時刻情報とともに蓄積する音声蓄積手段から、音声情報を音声認識してテキスト情報に変換する手段と、
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語をテキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する手段と、
入力された検索要求情報のうち記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する手段と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を音声蓄積手段から出力する手段と、を有する。
【0017】
また、本発明の音声通信記録生成装置における他の実施形態によれば、音声情報の発話区間及び無音区間を検出する手段を有するものであってもよい。
【0018】
更に、本発明の音声通信記録生成装置における他の実施形態によれば、話題キーワードに対する類義語を予め蓄積した類義語蓄積手段を更に用いて類義語を検索し、話題キーワードと共に進行位置をテキスト情報にマーク付けすることも好ましい。
【0019】
更に、本発明の音声通信記録生成装置における他の実施形態によれば、音声情報に会議特定情報が付与されており、音声情報に他の情報が紐付けられているものであってもよい。
【0020】
本発明の音声通信記録生成プログラムによれば、
少なくとも2以上の各地点からの音声情報と、当該音声情報が入力された時刻情報とともに蓄積する音声蓄積手段から、音声情報を音声認識してテキスト情報に変換する過程と、
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語をテキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する過程と、
入力された検索要求情報のうち記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する過程と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を音声蓄積手段から出力する過程としてコンピュータを実行させる。
【0021】
また、本発明の音声通信記録生成プログラムにおける他の実施形態によれば、音声情報の発話区間及び無音区間を検出する過程を有するようにコンピュータを実行させるものであってもよい。
【0022】
更に、本発明の音声通信記録生成プログラムにおける他の実施形態によれば、話題キーワードに対する類義語を予め蓄積した類義語蓄積手段を更に用いて類義語を検索し、話題キーワードと共に進行位置をテキスト情報にマーク付けするようにコンピュータを実行させることも好ましい。
【0023】
更に、本発明の音声通信記録生成プログラムにおける他の実施形態によれば、音声情報に会議特定情報が付与されており、音声情報に他の情報が紐付けられているようにコンピュータを実行させることも好ましい。
【0024】
【発明の実施の形態】
以下で、図面を用いて、本発明の実施の形態を説明する。
【0025】
図1は、本発明におけるシステム構成図である。
【0026】
図1によれば、本発明における音声通信記録サーバ1と、参加者の端末2、3及び4とが、インターネット5を介して接続されている。会議参加者は、それぞれの端末2、3及び4を用いて、インターネット5を介して遠隔通信会議を行うことができる。ここでは、参加者IDxxx、yyy及びzzzの参加者が、遠隔通信会議に参加している。
【0027】
端末2、3及び4それぞれには、音声情報を取得するマイク21、31及び41と、映像情報を取得するビデオカメラ22、32及び42とが備えられている。
【0028】
会議における端末間での音声情報等の交換は、音声通信記録サーバ1を経由して配信されるものであってもよいし、音声通信記録サーバ1と会議参加者の端末とに同報的に配信されるものであってもよい。
【0029】
また、音声情報等は、会議の開始から終了まで、各端末によって音声情報等がファイル形式で蓄積されるものであってもよい。この場合、一方では、会議終了後、端末2、3及び4それぞれによって記録された音声情報のファイルを、一度に、音声通信記録サーバ1へ送信する方法がある。他方では、会議中に、発言毎にファイル形式にした音声情報等を、逐次、音声通信記録サーバ1へ送信する方法もある。音声情報等が発言毎に区分されることにより、細かい検索条件に対応することが可能となる。このとき、各端末で無音区間を検出し、有音区間の音声情報のみを、音声通信記録サーバ1へ送信することも好ましい。
【0030】
これに対し、音声情報等は、会議の開始から終了まで、各端末から音声通信記録サーバ1へストリーミング形式で送信されるものであってもよい。この場合、音声通信記録サーバ1において、発話者毎及び/又は発言毎等によって音声情報等が区分される。このとき、音声通信記録サーバ1において、無音区間を検出し、有音区間の音声情報のみを抽出することも好ましい。
【0031】
尚、本発明は、会議終了後に会議内容の編集及び検索等を行うことを意図するものである。従って、実施形態においては、複数の端末による通信会議を想定しているが、1箇所の装置に音声情報等を集約して、計算機による処理を行うことも現実的である。
【0032】
図2は、本発明における音声通信記録サーバ1の機能構成図である。
【0033】
図2によれば、音声通信記録サーバ1は、音声情報データベース10(音声蓄積手段)と、映像情報等データベース11と、タイムスタンプ12と、会議ID決定部13と、音声認識処理部14と、議事録情報データベース15(記録手段)と、要点検索部16と、会議録生成部17と、類義語データベース18と、通信インタフェース19とを有する。
【0034】
インターネット5には、通信インタフェース19を介して接続される。
【0035】
会議ID決定部13は、その会議の「会議名」「参加者名」等を含む会議開始登録メッセージを受信し、それに対応する「会議ID」「参加者ID」(会議特定情報)を決定し、参加者の端末へ配信する。これらIDを、端末から受信する音声情報及び映像情報に付することができる。
【0036】
タイムスタンプ部12は、通信インタフェース19によって受信された音声情報及び映像情報に時刻を付する。
【0037】
受信された音声情報は、参加者ID毎に、音声情報データベース10に蓄積される。また、映像情報は、参加者ID毎に、映像情報等データベース11に蓄積される。ここで、音声情報と映像情報とは、タイムスタンプにより、時間で紐付けられている。尚、映像情報とは、参加者の用いる端末に備えられたビデオカメラから取得されたものに限られず、会議録で用いる文書資料データ又は投影資料データ等の、視覚的効果を有する資料データであってもよい。
【0038】
また、音声情報データベース10は、当該音声情報における発話区間と無音区間とを検出し、発話区間のみの音声情報を蓄積する。これを実現する方法としては、例えば、特許2590193号公報がある。
【0039】
音声情報データベース10に蓄積された音声情報は、次に、音声認識処理部14において、テキスト情報に変換される。このとき、テキスト情報について会議の話題の進行位置を意味する「特徴語」を検索する。更に、その「特徴語」に相当する「話題キーワード」を検索する。そして、話題キーワードと共に進行位置をテキスト情報にマーク付けする。例えば、発言の開始と終了とのタイミングにマーク付けをする。議事録情報データベース15には、「話題キーワード」と、その議題を導く「特徴語」とを含む文型データが記録される。
【0040】
例えば、「特徴語」として「始めます」「お話します」「次は」が登録されている場合、以下のテキスト情報が得られたとする。
(1)現在の研究開発についての議論を「始めます」。
(2)「次は」、今後の研究開発について「お話します」。
(3)「次は」、研究費についての議論を「始めます」。
このとき、「特徴語」に相当する「話題キーワード」として、「現在の研究開発」「今後の研究開発」「研究費」が得られる。
【0041】
音声認識処理部14によって抽出された、マーク付きのテキスト情報は、議事録情報データベース15に蓄積される。
【0042】
端末は、音声通信記録サーバ1に対して、「話題キーワード」に基づく要点のみを記録した会議録を要求することができる。このとき、当該端末は、音声通信記録サーバ1に対して、「話題キーワード」を含む会議録要求メッセージを送信する。
【0043】
要点検索部16は、通信インタフェース19によって受信された会議録要求メッセージを取得する。そして、要点検索部16は、「話題キーワード」に基づいて、議事録情報データベース15を検索する。例えば、要求された「話題キーワード」が「今後の研究開発」であれば、議事録情報データベース15から、「今後の研究開発」に相当するマークを検索し、その開始及び終了等の進行位置の情報を得ることができる。
【0044】
会議録要求メッセージには、会議録の要点の条件として、「話題キーワード」、「参加者ID(発話者毎)」及び「発話時刻」に限られず、「自由テキスト情報」又は「自由音声情報」であってもよい。「自由テキスト情報」とは、会議録要求者が取得したいと思う内容を記載した文章のテキスト情報をいう。音声通信記録サーバ1によって、そのテキスト情報から話題キーワード等を抽出することができる。また、「自由音声情報」とは、会議録要求者が取得したいと思う内容を録音した音声情報をいう。音声通信記録サーバ1によって、その音声情報を音声認識処理することでテキスト情報を抽出し、そのテキスト情報から話題キーワード等を抽出することができる。
【0045】
要点検索部16は、類義語データベース18を参照することもできる。例えば、特徴語「始めます」は、「開始します」「開きます」「行います」と類義であるとする。これら情報が、類義語データベース18に体系的に構成されて蓄積されている。従って、特徴語の類義語についても、要点検索部16は、議事録情報データベース15を検索することができる。もちろん、類義語データベース18は、話題キーワードの類義語についても検索できることが好ましい。
【0046】
会議録生成部17は、要点検索部16によって検索されたテキスト情報に基づいて、マーク位置及びその時刻情報に基づいて、音声情報データベース10と、映像情報等データベース11とを検索する。会議録生成部17は、検索されたテキスト情報に付された時刻情報に相当する音声情報及び映像情報を取得する。そして、HTML形式のAV(Audio and Visual)会議録を生成し、その会議録を、会議録要求メッセージを送信した端末へ返送する。
【0047】
これにより、会議録要求メッセージを送信した端末は、要求した「話題キーワード」に基づく会議録のみを受信することができ、その端末によって、その会議状況における音声及び映像を再生することができる。
【0048】
図3は、本発明による音声通信記録サーバと端末との間のシーケンス図である。
【0049】
図3によれば、以下のシーケンスで進行する。
(S30)遠隔通信会議を開始する際に、ある端末が、会議開始登録メッセージを、音声通信記録サーバ1へ送信する。この会議開始登録メッセージには、これから始める会議の「会議名」「参加者名」「開始時刻」等が含まれている。音声通信記録サーバ1は、会議ID決定部13によって、これら情報から会議ID及び参加者IDを決定する。
(S31)音声通信記録サーバ1は、会議ID及び参加者IDを、参加者の各端末2、3及び4へ配信する。
(S32)各端末2、3及び4は、最初に、音声通信記録サーバ1との間で時刻合わせを行う。尚、端末及び音声通信記録サーバ1のそれぞれが、インターネットにおけるNTP(Network Time Protocol)サーバ又はSNTP(Simple Network Time Protocol)サーバにアクセスして、内蔵時計を一致させるものであってもよい。
(S33)端末2、3及び4は、インターネット5を介して会議を始める。この会議における音声情報は、各端末のマイクから取得され、映像情報は、各端末のビデオカメラによって取得される。会議ID及び参加者IDが付与された音声情報及び映像情報は、音声通信記録サーバ1へ配信される。
(S34)遠隔通信会議を終了する際に、ある端末が、会議終了登録メッセージを、音声通信記録サーバ1へ送信する。
(S35)その後、ある参加者が、所望の「話題キーワード」に基づく会議録を必要とする場合がある。このとき、その参加者の操作によって、当該端末が、音声通信記録サーバ1へ、会議録要求メッセージを送信する。
尚、会議録要求メッセージを送信する端末は、必ずしも会議の参加者の端末(音声情報等を送信する端末)に限られない。
(S36)音声通信記録サーバ1は、会議録要求メッセージに含まれる「キーワード」に基づいて、音声情報及び映像情報を組み合わせた、HTML形式のAV会議録を作成する。そして、その会議録を、会議録要求メッセージを送信した端末へ送信する。
【0050】
図4は、本発明における音声通信記録サーバが、会議の音声情報及び映像情報を受信した際のフローチャートである。
【0051】
図4によれば、以下のシーケンスで進行する。
(S40)端末から、会議開始登録メッセージを受信する。
(S41)会議開始登録メッセージに含まれる「会議名」及び「参加者名」等の情報に基づいて、「会議ID」及び「参加者ID」を決定し、これらIDを参加者の端末へ配信する。
(S42)端末から、会議中の音声情報及び映像情報を受信する。
(S43)その音声情報及び映像情報に、現在の時刻をスタンプする。これは、ストリーミング形式の場合に有効である。これに対し、ファイル形式の場合、端末において時刻がファイルにスタンプされていれば、ここで時刻をスタンプする必要はない。
(S44)受信した音声・映像情報を、音声情報と映像情報とで区別する。
(S45)音声情報は、音声情報データベース10に、参加者毎に蓄積される。
(S46)映像情報は、映像情報等データベース11に、参加者毎に蓄積される。
(S47)音声情報は、音声認識処理によって、テキスト情報に変換される。このとき、テキスト情報について会議の話題の進行位置を意味する特徴語を検索し、その特徴語に相当する話題キーワードを検索し、話題キーワードと共に進行位置をテキスト情報にマーク付けする。このとき、特徴語に対する類義語を予め蓄積した類義語データベース18を用いる。これを用いて、その特徴語に対する類義語を検索し、その類義語に相当する話題キーワードを検索する。
(S48)そのテキスト情報は、議事録情報データベース15に、参加者毎に蓄積される。
【0052】
図5は、本発明における音声通信記録サーバが、会議録要求メッセージを受信した際のフローチャートである。
【0053】
図5によれば、以下のシーケンスで進行する。
(S51)端末から、会議録要求メッセージを受信する。この会議録要求メッセージには、「話題キーワード」が含まれている。
(S52)議事録情報データベース15から、「話題キーワード」に基づくテキスト情報を検索する。
(S53)検索されたテキスト情報の時刻情報を特定する。
(S54)特定された時刻情報に相当する音声情報及び映像情報を、音声情報データベース10及び映像情報等データベース11から取得する。
(S55)取得された音声情報及び映像情報からなる会議録を生成する。ここで、会議録は、HTML形式のものである。これにより、マルチメディア会議録を提供することができる。
(S56)生成された会議録を、会議録要求メッセージを送信した端末へ、送信する。
【0054】
本発明の音声通信記録再生方法における各過程は、計算機に内蔵された記録媒体を用い、CPU等の制御手段を用いて実行可能である。また、計算機読み取り可能なプログラムをCD等の記録媒体若しくは通信回線を介してインストールして当該計算機に実行させることもできる。これらプログラムは、主に、インターネットにおけるサーバの一機能として、サーバに搭載されるプログラムによって実現されてもよい。もちろん、これら機能は、端末に搭載されるプログラムによっても実現され、Peer−to−Peer型で利用することもできる。
【0055】
【発明の効果】
以上、詳細に説明したように、本発明の音声通信記録生成方法、装置及びプログラムによれば、会議録を提供するに際し、会議録を必要とする者の所望する条件(話題キーワード又は発話者等)によって要点がまとめられた会議録を提供することができる。特に、インターネットを利用した遠隔通信会議において、本発明における議事録の作成は、既存のサービスに付加価値を加えることになる。
【0056】
これにより、会議終了後、聞き直したい特定発話者の発言(例えば社長の発言等)、遅刻したために聞き逃した会議の頭部の討議内容、又は、会議の総括として各議題のまとめ部分のみのレビュー等を取得することができる。特に、会議の全容を取得する必要なく、所望の条件に応じた必要箇所のみのコンパクトな会議録を取得することができる。
【図面の簡単な説明】
【図1】本発明におけるシステム構成図である。
【図2】本発明における音声通信記録サーバの機能構成図である。
【図3】本発明による音声通信記録サーバと端末との間のシーケンス図である。
【図4】本発明における音声通信記録サーバが、会議の音声情報及び映像情報を受信した際のフローチャートである。
【図5】本発明における音声通信記録サーバが、会議録要求メッセージを受信した際のフローチャートである。
【符号の説明】
1 音声通信記録サーバ、音声通信記録装置
10 音声情報データベース、音声蓄積手段
11 映像情報等データベース
12 タイムスタンプ部
13 会議ID決定部
14 音声認識処理部
15 議事録情報データベース、記憶手段
16 要件検索部
17 会議録生成部
18 類義語データベース、類義語蓄積手段
19 通信インタフェース部
2、3、4 端末
21、31、41 マイク
22、32、42 ビデオカメラ
5 インターネット[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice communication record generation method, an apparatus, and a program. In particular, the present invention relates to a method for creating a record that allows a user to easily retrieve the contents of acquired voice information and the like in a telecommunication conference using the Internet.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, in a conference system using multimedia information such as audio or images, there has been a device that can easily edit important items during a conference in a short time (for example, see Patent Document 1).
[0003]
This apparatus analyzes the temporal relationship of multimedia information obtained by a conference, identifies a speaker, and extracts a keyword from the multimedia information. In particular, for voice information, keywords are extracted by voice recognition processing. The speaker is identified by the device identification number to which the voice information is input and the feature extraction process. Further, the apparatus accumulates a search file indicating the importance of the conference in a time series by weighting the keyword and the speaker. These processes are performed in real time during the meeting. This makes it possible to narrow down scenes containing important items on the basis of keywords, reference materials, material referrers or speakers, time periods of meetings, and the like that appear during the meeting, and the time required for creating meeting minutes Can be greatly reduced.
[0004]
In addition, as a mechanism for supporting minutes creation, mixed data in which voice information of multiple speakers is mixed is separated into voice information for each speaker, and the voice minutes are created by specifying the speaker. There was also a method (for example, see Patent Document 2).
[0005]
Further, a consultation conference system that records not only audio and video but also graphic information and sends out only essential points in response to requests has been realized (for example, see Patent Document 3).
[0006]
[Patent Document 1]
Japanese Patent No. 3185505 [Patent Document 2]
JP-A-2003-5790 (Japanese Patent Application No. 2001-191289)
[Patent Document 3]
JP-A-5-298340 (Japanese Patent Application No. 4-96883)
[0007]
[Problems to be solved by the invention]
According to
[0008]
In addition, according to
[0009]
That is, according to the conventional technique, the conference minutes are prepared only for the convenience of the conference creator, and the conference minutes in which the main points are summarized according to the desired conditions of the person who needs the conference minutes are not provided.
[0010]
In view of the above, an object of the present invention is to provide a conference record in which the main points are summarized according to desired conditions of a person who needs the conference record.
[0011]
[Means for Solving the Problems]
The present invention relates to a telecommunications conference, a method for generating a voice communication record using two or more terminals used by each participant, and a voice communication record generation device for recording voice information in the conference and generating a meeting record. , Devices and programs.
[0012]
According to the voice communication record generation method according to the present invention,
Voice information from at least two or more points, and a voice storage means for storing the voice information together with the input time information, voice-recognizing the voice information and converting it into text information;
Determining time information in which the text information includes at least one of the topic keywords or a synonym thereof from the topic keyword storage unit that accumulates the topic keywords, and records the time information in the recording unit in association with the topic keywords;
A step of determining time information at which the topic keyword or a synonym thereof is recorded in the recording unit of the input search request information;
Outputting the determined time information or voice information corresponding to a predetermined time section including the time information from the voice storage means.
[0013]
Further, according to another embodiment of the voice communication record generation method of the present invention, the method may include a step of detecting a speech section and a silent section of voice information.
[0014]
Further, according to another embodiment of the voice communication record generation method of the present invention, a synonym is further searched for by using a synonym storage unit that previously stores synonyms for the topic keyword, and the progress position is marked on the text information together with the topic keyword. It is also preferable to do so.
[0015]
Further, according to another embodiment of the voice communication record generation method of the present invention, it is preferable that the conference information is added to the voice information, and the voice information is linked to other information.
[0016]
According to the voice communication record generation device of the present invention,
Means for converting voice information into text information by voice recognition from voice storage means for storing voice information from at least two or more points and time information at which the voice information is input;
Means for determining time information including at least one of the topic keywords or synonyms thereof from the topic keyword storage means for accumulating topic keywords in the text information, and recording the time information and the topic keywords in the recording means in association with each other;
Means for determining the time information at which the topic keyword or a synonym thereof is recorded in the recording means of the input search request information;
Means for outputting the determined time information or voice information corresponding to a predetermined time section including the time information from the voice storage means.
[0017]
According to another embodiment of the voice communication record generation device of the present invention, the voice communication record generation device may include a unit for detecting a speech section and a silent section of voice information.
[0018]
Further, according to another embodiment of the voice communication record generation device of the present invention, a synonym is further searched for by using a synonym storage means in which a synonym for the topic keyword is stored in advance, and the progress position is marked on the text information together with the topic keyword. It is also preferable to do so.
[0019]
Further, according to another embodiment of the audio communication record generation device of the present invention, the conference information may be added to the audio information, and the audio information may be linked to other information.
[0020]
According to the voice communication record generation program of the present invention,
Voice information from at least two or more points, and a voice storage means for storing the voice information together with the input time information, voice-recognizing the voice information and converting it into text information;
Determining time information in which the text information includes at least one of the topic keywords or a synonym thereof from the topic keyword storage means for accumulating the topic keywords, and recording the time information in the recording means in association with the topic keywords;
A step of determining time information at which the topic keyword or a synonym thereof is recorded in the recording unit of the input search request information;
The computer is executed as a process of outputting the determined time information or voice information corresponding to a predetermined time section including the time information from the voice storage unit.
[0021]
According to another embodiment of the voice communication record generation program of the present invention, the computer may be executed so as to have a process of detecting a speech section and a silent section of voice information.
[0022]
Further, according to another embodiment of the voice communication record generation program of the present invention, a synonym is further searched for by using a synonym storage unit that previously stores synonyms for the topic keyword, and the progress position is marked on the text information together with the topic keyword. It is also preferable to execute the computer in such a manner as to execute the above.
[0023]
Furthermore, according to another embodiment of the voice communication record generation program of the present invention, the conference specific information is added to the voice information, and the computer is executed such that the voice information is linked to other information. Is also preferred.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0025]
FIG. 1 is a system configuration diagram according to the present invention.
[0026]
According to FIG. 1, a voice
[0027]
Each of the
[0028]
The exchange of voice information and the like between terminals in the conference may be delivered via the voice
[0029]
The audio information or the like may be one in which the audio information or the like is stored in a file format by each terminal from the start to the end of the conference. In this case, on the other hand, there is a method of transmitting a file of audio information recorded by each of the
[0030]
On the other hand, the audio information or the like may be transmitted from each terminal to the audio
[0031]
It should be noted that the present invention intends to edit and search the contents of the meeting after the meeting. Therefore, in the embodiment, a communication conference by a plurality of terminals is assumed, but it is also realistic to aggregate voice information and the like in one device and perform processing by a computer.
[0032]
FIG. 2 is a functional configuration diagram of the voice
[0033]
According to FIG. 2, the voice
[0034]
The
[0035]
The conference
[0036]
The
[0037]
The received voice information is stored in the
[0038]
Further, the
[0039]
Next, the voice information stored in the
[0040]
For example, if "start", "speak", and "next" are registered as "feature words", it is assumed that the following text information is obtained.
(1) "Begin" the current R & D discussion.
(2) “Next,” I will talk about future research and development.
(3) “Next”, “Discussion” on research expenses will begin.
At this time, “current research and development”, “future research and development”, and “research expenses” are obtained as “topic keywords” corresponding to “characteristic words”.
[0041]
The marked text information extracted by the voice
[0042]
The terminal can request the meeting record in which only the key points based on the “topic keyword” are recorded from the voice
[0043]
The key
[0044]
The minutes record request message is not limited to “topic keywords”, “participant IDs (for each speaker)” and “speech time”, but may be “free text information” or “free speech information”. It may be. “Free text information” refers to text information of a sentence that describes the content that the meeting requester wants to obtain. The voice
[0045]
The
[0046]
The meeting
[0047]
Thus, the terminal that has transmitted the conference request message can receive only the conference based on the requested “topic keyword”, and the terminal can reproduce the audio and video in the conference situation.
[0048]
FIG. 3 is a sequence diagram between the voice communication recording server and the terminal according to the present invention.
[0049]
According to FIG. 3, it proceeds in the following sequence.
(S30) When starting a remote communication conference, a certain terminal transmits a conference start registration message to the voice
(S31) The voice
(S32) First, each of the
(S33) The
(S34) When ending the telecommunication conference, a certain terminal transmits a conference end registration message to the voice
(S35) Thereafter, a participant may need a minutes based on a desired “topic keyword”. At this time, the terminal transmits a conference request message to the voice
It should be noted that the terminal transmitting the conference record request message is not necessarily limited to a terminal of a participant of the conference (a terminal transmitting audio information or the like).
(S36) Based on the “keyword” included in the conference record request message, the audio
[0050]
FIG. 4 is a flowchart when the audio communication recording server according to the present invention receives audio information and video information of a conference.
[0051]
According to FIG. 4, it proceeds in the following sequence.
(S40) A conference start registration message is received from the terminal.
(S41) Based on information such as "conference name" and "participant name" included in the conference start registration message, a "conference ID" and "participant ID" are determined, and these IDs are distributed to the participants' terminals. I do.
(S42) Audio information and video information during the conference are received from the terminal.
(S43) The current time is stamped on the audio information and the video information. This is effective for the streaming format. On the other hand, in the case of the file format, if the time is stamped on the file at the terminal, there is no need to stamp the time here.
(S44) The received audio / video information is distinguished between audio information and video information.
(S45) The voice information is stored in the
(S46) The video information is stored in the
(S47) The voice information is converted into text information by voice recognition processing. At this time, for the text information, a feature word meaning the progress position of the topic of the meeting is searched, a topic keyword corresponding to the feature word is searched, and the progress position is marked on the text information together with the topic keyword. At this time, a
(S48) The text information is stored in the
[0052]
FIG. 5 is a flowchart when the voice communication recording server according to the present invention receives a conference request message.
[0053]
According to FIG. 5, the process proceeds in the following sequence.
(S51) A conference record request message is received from the terminal. The conference minutes request message includes a “topic keyword”.
(S52) The
(S53) The time information of the searched text information is specified.
(S54) The audio information and the video information corresponding to the specified time information are acquired from the
(S55) A conference record including the acquired audio information and video information is generated. Here, the minutes are in HTML format. As a result, multimedia minutes can be provided.
(S56) The generated minutes are transmitted to the terminal that transmitted the minutes request message.
[0054]
Each step in the voice communication recording / reproducing method of the present invention can be executed by using a recording medium built in a computer and using control means such as a CPU. Also, a computer-readable program can be installed via a recording medium such as a CD or a communication line and executed by the computer. These programs may be mainly realized as a function of a server on the Internet by a program mounted on the server. Of course, these functions are also realized by a program installed in the terminal, and can be used in a peer-to-peer type.
[0055]
【The invention's effect】
As described above in detail, according to the voice communication record generation method, apparatus, and program of the present invention, when providing a conference record, conditions desired by a person who needs the conference record (topic keyword, speaker, etc.) ) Can provide the minutes of the meeting. In particular, in a telecommunication conference using the Internet, the creation of minutes in the present invention adds value to existing services.
[0056]
As a result, after the meeting, the specific speaker who wants to hear again (for example, the statement of the president), the content of the discussion of the head of the meeting that was missed because it was late, or only the summary of each agenda as a summary of the meeting Reviews can be obtained. In particular, it is possible to acquire a compact conference record of only a necessary portion corresponding to a desired condition without acquiring the entire conference.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram according to the present invention.
FIG. 2 is a functional configuration diagram of a voice communication recording server according to the present invention.
FIG. 3 is a sequence diagram between a voice communication recording server and a terminal according to the present invention.
FIG. 4 is a flowchart when the audio communication recording server according to the present invention receives audio information and video information of a conference.
FIG. 5 is a flowchart when the voice communication recording server according to the present invention receives a conference record request message.
[Explanation of symbols]
Claims (12)
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語を前記テキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する過程と、
入力された検索要求情報のうち前記記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する過程と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を前記音声蓄積手段から出力する過程と、を有する音声通信記録生成方法。A step of converting the voice information into text information by voice recognition from voice information from at least two or more points and voice storage means for storing the voice information together with the input time information;
Determining time information in which the text information includes at least one topic keyword or a synonym thereof from the topic keyword storage unit that stores the topic keyword, and recording the time information and the topic keyword in the recording unit in association with each other; ,
A step of determining time information at which a topic keyword or a synonym thereof is recorded in the recording unit in the input search request information;
Outputting said determined time information or voice information corresponding to a predetermined time section including said time information from said voice storage means.
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語を前記テキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する手段と、
入力された検索要求情報のうち前記記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する手段と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を前記音声蓄積手段から出力する手段と、を有する音声通信記録生成装置。Means for converting the voice information into text information by voice recognition from voice information from at least two or more points and voice storage means for storing the voice information together with the input time information;
Means for determining time information in which the text information includes at least one topic keyword or a synonym thereof from the topic keyword storage means for accumulating topic keywords, and recording the time information and the topic keyword in the recording means in association with each other. ,
Means for determining time information at which a topic keyword or a synonym thereof is recorded in the recording means of the input search request information;
A means for outputting the determined time information or voice information corresponding to a predetermined time section including the time information from the voice storage means.
話題キーワードを蓄積する話題キーワード蓄積手段からの話題キーワードの少なくとも1つ又はその類義語を前記テキスト情報が含む時刻情報を判定し、当該時刻情報と話題キーワードとを対応付けて記録手段に記録する過程と、
入力された検索要求情報のうち前記記録手段に話題キーワード又はその類義語が記録されている時刻情報を判定する過程と、
当該判定された時刻情報又は当該時刻情報を含む所定の時刻区間に対応する音声情報を前記音声蓄積手段から出力する過程としてコンピュータを実行させる音声通信記録生成プログラム。A step of converting the voice information into text information by voice recognition from voice information from at least two or more points and voice storage means for storing the voice information together with the input time information;
Determining time information in which the text information includes at least one topic keyword or a synonym thereof from the topic keyword storage unit that stores the topic keyword, and recording the time information and the topic keyword in the recording unit in association with each other; ,
A step of determining time information at which a topic keyword or a synonym thereof is recorded in the recording unit in the input search request information;
A voice communication record generation program for causing a computer to execute the process of outputting the determined time information or voice information corresponding to a predetermined time section including the time information from the voice storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003073455A JP2004279897A (en) | 2003-03-18 | 2003-03-18 | Method, device, and program for voice communication record generation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003073455A JP2004279897A (en) | 2003-03-18 | 2003-03-18 | Method, device, and program for voice communication record generation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004279897A true JP2004279897A (en) | 2004-10-07 |
Family
ID=33289350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003073455A Withdrawn JP2004279897A (en) | 2003-03-18 | 2003-03-18 | Method, device, and program for voice communication record generation |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004279897A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006097975A1 (en) * | 2005-03-11 | 2008-08-21 | 岐阜サービス株式会社 | Speech recognition program |
JP2009069172A (en) * | 2007-09-10 | 2009-04-02 | Konica Minolta Business Technologies Inc | Minutes creating device, minutes creating system, minutes creating method and minutes creating program |
JP2011199522A (en) * | 2010-03-18 | 2011-10-06 | Bizmobile Inc | Telephone conference system, communication server, communication terminal, and telephone conference method |
JP2014116833A (en) * | 2012-12-11 | 2014-06-26 | Ricoh Co Ltd | Information processing device and information processing system |
JP2017134686A (en) * | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | Analysis system, analysis method, and analysis program |
CN108922538A (en) * | 2018-05-29 | 2018-11-30 | 平安科技(深圳)有限公司 | Conferencing information recording method, device, computer equipment and storage medium |
JP2019192226A (en) * | 2018-04-20 | 2019-10-31 | 株式会社リコー | Communication terminal, sharing system, communication method, and program |
-
2003
- 2003-03-18 JP JP2003073455A patent/JP2004279897A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006097975A1 (en) * | 2005-03-11 | 2008-08-21 | 岐阜サービス株式会社 | Speech recognition program |
JP4516112B2 (en) * | 2005-03-11 | 2010-08-04 | 岐阜サービス株式会社 | Speech recognition program |
JP2009069172A (en) * | 2007-09-10 | 2009-04-02 | Konica Minolta Business Technologies Inc | Minutes creating device, minutes creating system, minutes creating method and minutes creating program |
JP2011199522A (en) * | 2010-03-18 | 2011-10-06 | Bizmobile Inc | Telephone conference system, communication server, communication terminal, and telephone conference method |
JP2014116833A (en) * | 2012-12-11 | 2014-06-26 | Ricoh Co Ltd | Information processing device and information processing system |
JP2017134686A (en) * | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | Analysis system, analysis method, and analysis program |
JP2019192226A (en) * | 2018-04-20 | 2019-10-31 | 株式会社リコー | Communication terminal, sharing system, communication method, and program |
JP7338211B2 (en) | 2018-04-20 | 2023-09-05 | 株式会社リコー | Communication terminal, shared system, communication method and program |
CN108922538A (en) * | 2018-05-29 | 2018-11-30 | 平安科技(深圳)有限公司 | Conferencing information recording method, device, computer equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9247205B2 (en) | System and method for editing recorded videoconference data | |
US8630854B2 (en) | System and method for generating videoconference transcriptions | |
US7848493B2 (en) | System and method for capturing media | |
US20060264209A1 (en) | Storing and retrieving multimedia data and associated annotation data in mobile telephone system | |
US20020091658A1 (en) | Multimedia electronic education system and method | |
US20110069230A1 (en) | Caption and/or Metadata Synchronization for Replay of Previously or Simultaneously Recorded Live Programs | |
JP2005341015A (en) | Video conference system with minute creation support function | |
JP2009522845A (en) | Searchable multimedia stream | |
JP2010140506A (en) | Apparatus for annotating document | |
JP5206553B2 (en) | Browsing system, method, and program | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
JP2008172582A (en) | Minutes generating and reproducing apparatus | |
CA2271745A1 (en) | Method and apparatus for storing and retrieving labeled interval data for multimedia recordings | |
CN111479124A (en) | Real-time playing method and device | |
JP2004279897A (en) | Method, device, and program for voice communication record generation | |
JP2004023661A (en) | Recorded information processing method, recording medium, and recorded information processor | |
JP2005109928A (en) | Electronic conference system and electronic conference management method | |
JP6627315B2 (en) | Information processing apparatus, information processing method, and control program | |
KR102252522B1 (en) | Method and system for automatic creating contents list of video based on information | |
JP2021180427A (en) | Group communication system, group communication program and group communication method | |
JP2005065191A (en) | Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program | |
KR101490507B1 (en) | Method and apparatus for editing moving picture contents | |
JP7179387B1 (en) | HIGHLIGHT MOVIE GENERATION SYSTEM, HIGHLIGHT MOVIE GENERATION METHOD, AND PROGRAM | |
KR20170130198A (en) | Real-time reading system and method for mobile -based scenarios | |
US11902042B2 (en) | Systems and methods for processing and utilizing video data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060606 |