JP2000010578A - 音声メッセージ送受信システム、及び音声メッセージ処理方法 - Google Patents
音声メッセージ送受信システム、及び音声メッセージ処理方法Info
- Publication number
- JP2000010578A JP2000010578A JP10172575A JP17257598A JP2000010578A JP 2000010578 A JP2000010578 A JP 2000010578A JP 10172575 A JP10172575 A JP 10172575A JP 17257598 A JP17257598 A JP 17257598A JP 2000010578 A JP2000010578 A JP 2000010578A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- text data
- voice message
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】
【課題】音声メッセージの内容を聞くことなしに、自動
的に音声認識ができ、要約、分類、検索、情報抽出等の
処理を行うことを可能にする。 【解決手段】送信装置25では、音声メッセージである
デジタルデータに対して、音声データ圧縮部33が圧縮
処理を行うと同時に、音声認識部31が音声認識を行
い、音声メッセージの内容を表すテキストデータを作成
する。そして、テキストデータ付加部35が、作成され
たテキストデータを圧縮音声データに付加して、受信装
置27へ伝送する。受信装置27では、データ分離部3
7が、受信したテキストデータ付き圧縮音声データを、
テキストデータと圧縮音声データの二つに分離して、デ
ータベース39へ送る。そして、自動的に、テキストデ
ータ処理部43が、データベース39に格納されたテキ
ストデータに基づいて、要約、分類、検索、情報抽出等
の処理を行う。
的に音声認識ができ、要約、分類、検索、情報抽出等の
処理を行うことを可能にする。 【解決手段】送信装置25では、音声メッセージである
デジタルデータに対して、音声データ圧縮部33が圧縮
処理を行うと同時に、音声認識部31が音声認識を行
い、音声メッセージの内容を表すテキストデータを作成
する。そして、テキストデータ付加部35が、作成され
たテキストデータを圧縮音声データに付加して、受信装
置27へ伝送する。受信装置27では、データ分離部3
7が、受信したテキストデータ付き圧縮音声データを、
テキストデータと圧縮音声データの二つに分離して、デ
ータベース39へ送る。そして、自動的に、テキストデ
ータ処理部43が、データベース39に格納されたテキ
ストデータに基づいて、要約、分類、検索、情報抽出等
の処理を行う。
Description
【0001】
【発明の属する技術分野】本発明は、音声メッセージの
送受信システムに関し、特に、音声メッセージの処理を
容易化するための音声認識を利用した技術に関する。
送受信システムに関し、特に、音声メッセージの処理を
容易化するための音声認識を利用した技術に関する。
【0002】
【従来の技術】文字列データ等のテキストによるメッセ
ージに対しては、日常使用している自然言語の処理技術
を用いて、要約、分類、検索、情報抽出等の処理を行う
ことが可能である。
ージに対しては、日常使用している自然言語の処理技術
を用いて、要約、分類、検索、情報抽出等の処理を行う
ことが可能である。
【0003】一方、音声によるメッセージに対しては、
入力された音声を音声認識によりテキストデータに変換
してから上記と同様な処理を行う事が出来る。或いは、
ある程度人手を介在させて、その音声メッセージを聞い
て、その内容に対応した書き下し文やキーワードを付与
し、その付与されたテキストデータに基づいて、要約、
分類、検索、情報抽出などの処理を行うこともできる。
入力された音声を音声認識によりテキストデータに変換
してから上記と同様な処理を行う事が出来る。或いは、
ある程度人手を介在させて、その音声メッセージを聞い
て、その内容に対応した書き下し文やキーワードを付与
し、その付与されたテキストデータに基づいて、要約、
分類、検索、情報抽出などの処理を行うこともできる。
【0004】このような方法を用いた従来の音声メッセ
ージ送受信システムの構成を図1に示す。
ージ送受信システムの構成を図1に示す。
【0005】送信装置1で、音声メッセージが入力され
ると、デジタルデータ変換部5が、その音声メッセージ
をデジタルデータに変換し、音声データ圧縮部7が、伝
送コストを下げるために、そのデジタル音声データを圧
縮して、圧縮音声データとし、有線又は無線のネットワ
ークを通じて受信装置3へ向けて伝送する。受信装置3
では、その圧縮音声データをいったんデータベース9に
格納する。音声メッセージの処理を行う場合は、データ
処理部13が、データベース9内の音声データを音声認
識によりテキストデータに変換し、そのテキストデータ
に基づいて要約、分類、検索、情報抽出等を行う。或い
は、ユーザが、音声変換部11を用いて、データベース
9内の圧縮音声データを、音声に変換して聞いて、書き
下し文やキーワードといったテキストデータを付与し、
これに基づいてデータ処理部13が要約、分類、検索、
情報抽出等の処理を行うことができる。
ると、デジタルデータ変換部5が、その音声メッセージ
をデジタルデータに変換し、音声データ圧縮部7が、伝
送コストを下げるために、そのデジタル音声データを圧
縮して、圧縮音声データとし、有線又は無線のネットワ
ークを通じて受信装置3へ向けて伝送する。受信装置3
では、その圧縮音声データをいったんデータベース9に
格納する。音声メッセージの処理を行う場合は、データ
処理部13が、データベース9内の音声データを音声認
識によりテキストデータに変換し、そのテキストデータ
に基づいて要約、分類、検索、情報抽出等を行う。或い
は、ユーザが、音声変換部11を用いて、データベース
9内の圧縮音声データを、音声に変換して聞いて、書き
下し文やキーワードといったテキストデータを付与し、
これに基づいてデータ処理部13が要約、分類、検索、
情報抽出等の処理を行うことができる。
【0006】
【発明が解決しようとする課題】ところが、ネットワー
クを通じて伝送される音声メッセージは、データが圧縮
されていたり、伝送中のデータの転送ミスに起因した符
号化の誤りやノイズの混入等によって、伝送された後に
再生される音声メッセージは、著しく音声の質が低下し
ている。このため、音声認識の誤りが非常に多くなるた
め、音声認識の処理を行うことが困難になり、処理精度
が落ちるという問題がある。
クを通じて伝送される音声メッセージは、データが圧縮
されていたり、伝送中のデータの転送ミスに起因した符
号化の誤りやノイズの混入等によって、伝送された後に
再生される音声メッセージは、著しく音声の質が低下し
ている。このため、音声認識の誤りが非常に多くなるた
め、音声認識の処理を行うことが困難になり、処理精度
が落ちるという問題がある。
【0007】また、音声メッセージをユーザが聞いてテ
キストデータを付与する方法では、音声認識ユーザの作
業に手間がかかるという問題もある。
キストデータを付与する方法では、音声認識ユーザの作
業に手間がかかるという問題もある。
【0008】従って、本発明の目的は、ユーザが音声メ
ッセージの内容を聞くことなしに、自動的に要約、分
類、検索、情報抽出等の処理を行うことの出来るように
し、もって、音声メッセージの迅速な処理や分類作業の
省力化等が可能にすることにある。
ッセージの内容を聞くことなしに、自動的に要約、分
類、検索、情報抽出等の処理を行うことの出来るように
し、もって、音声メッセージの迅速な処理や分類作業の
省力化等が可能にすることにある。
【0009】
【課題を解決するための手段】本発明のシステムは、入
力される音声メッセージを送信する送信装置と、前記送
信装置からの前記音声メッセージを受ける受信装置とを
有する。前記送信装置は、入力される前記音声メッセー
ジを音声認識し、前記音声認識の結果を表すテキストデ
ータを作成する音声認識部と、前記テキストデータと前
記音声メッセージを示す音声データとを受け、前記テキ
ストデータを前記音声データに付加して、送信するテキ
ストデータ付加部とを備える。前記受信装置は、前記テ
キストデータが付加された前記音声データを受けて、前
記テキストデータと前記音声データとに分離して出力す
るデータ分離部と、前記テキストデータに所定の処理を
行うテキストデータ処理部と、前記音声データに所定の
処理を行う音声データ処理部とを備える。
力される音声メッセージを送信する送信装置と、前記送
信装置からの前記音声メッセージを受ける受信装置とを
有する。前記送信装置は、入力される前記音声メッセー
ジを音声認識し、前記音声認識の結果を表すテキストデ
ータを作成する音声認識部と、前記テキストデータと前
記音声メッセージを示す音声データとを受け、前記テキ
ストデータを前記音声データに付加して、送信するテキ
ストデータ付加部とを備える。前記受信装置は、前記テ
キストデータが付加された前記音声データを受けて、前
記テキストデータと前記音声データとに分離して出力す
るデータ分離部と、前記テキストデータに所定の処理を
行うテキストデータ処理部と、前記音声データに所定の
処理を行う音声データ処理部とを備える。
【0010】本発明のシステムでは、送信装置が、音声
メッセージの音声認識処理を行って、その認識結果のテ
キストデータと音声データを共に受信装置へ送る。それ
により、受信側では、データ伝送時のデータ圧縮や転送
ミス等によって劣化する音声データを音声認識したり、
又は、ユーザが劣化した音声を聞いてテキストデータ化
したりする必要がなくなり、送信側で正確に認識したテ
キストデータに基づいて要約、分類等の種々の処理を行
うことができる。それにより、ユーザは、音声メッセー
ジの内容を聞くこと無しに、そのメッセージの内容を知
ることができる。
メッセージの音声認識処理を行って、その認識結果のテ
キストデータと音声データを共に受信装置へ送る。それ
により、受信側では、データ伝送時のデータ圧縮や転送
ミス等によって劣化する音声データを音声認識したり、
又は、ユーザが劣化した音声を聞いてテキストデータ化
したりする必要がなくなり、送信側で正確に認識したテ
キストデータに基づいて要約、分類等の種々の処理を行
うことができる。それにより、ユーザは、音声メッセー
ジの内容を聞くこと無しに、そのメッセージの内容を知
ることができる。
【0011】
【発明の実施の形態】図2は、本発明の一実施形態にか
かる音声メッセージ送受信システムの構成を示す。
かる音声メッセージ送受信システムの構成を示す。
【0012】このシステムでは、入力される音声メッセ
ージを伝送する送信装置25と、伝送されてくる音声メ
ッセージを出力する受信装置27とを有する。送信装置
25内部には、入力される音声メッセージを受けて、そ
れをデジタルデータに変換して出力するデジタルデータ
変換部29と、デジタルデータを受けて、音声認識を行
い、その音声認識結果を表すテキストデータを作成し
て、出力する音声認識部31とを有する。また、デジタ
ルデータを受けて、圧縮し、圧縮音声データとして出力
する音声データ圧縮部33と、出力されたテキストデー
タと圧縮音声データを受けて、テキストデータを圧縮音
声データに付加して送信するテキストデータ付加部35
も設けられている。
ージを伝送する送信装置25と、伝送されてくる音声メ
ッセージを出力する受信装置27とを有する。送信装置
25内部には、入力される音声メッセージを受けて、そ
れをデジタルデータに変換して出力するデジタルデータ
変換部29と、デジタルデータを受けて、音声認識を行
い、その音声認識結果を表すテキストデータを作成し
て、出力する音声認識部31とを有する。また、デジタ
ルデータを受けて、圧縮し、圧縮音声データとして出力
する音声データ圧縮部33と、出力されたテキストデー
タと圧縮音声データを受けて、テキストデータを圧縮音
声データに付加して送信するテキストデータ付加部35
も設けられている。
【0013】受信装置27内部には、テキストデータが
付加された圧縮音声データを受けて、テキストデータと
圧縮音声データの2つに分離して出力するデータ分離部
37と、データ分離部37からのテキストデータと圧縮
音声データと、後述するテキストデータ処理部41から
の処理データを受けて、それらを格納するデータベース
39とを有する。また、データベース39から圧縮音声
データを抽出し、音声メッセージに変換して出力する音
声データ処理部41と、データベース39からテキスト
データを抽出して、そのテキストデータに対して要約、
分類、検索、情報抽出等の処理を行うテキストデータ処
理部43も設けられている。
付加された圧縮音声データを受けて、テキストデータと
圧縮音声データの2つに分離して出力するデータ分離部
37と、データ分離部37からのテキストデータと圧縮
音声データと、後述するテキストデータ処理部41から
の処理データを受けて、それらを格納するデータベース
39とを有する。また、データベース39から圧縮音声
データを抽出し、音声メッセージに変換して出力する音
声データ処理部41と、データベース39からテキスト
データを抽出して、そのテキストデータに対して要約、
分類、検索、情報抽出等の処理を行うテキストデータ処
理部43も設けられている。
【0014】このシステムの特徴は、送信装置25で
は、音声認識部31と、テキストデータ付加部35とに
より、入力される音声メッセージに対して音声認識処理
を行い、認識結果のテキストデータを付加して送信する
ことにある。そして、受信装置27では、データ分離部
37により、受信したデータを、テキストデータと音声
データとに分離して、そのテキストデータに基づいて、
自動的に、種々の処理を行うことにある。
は、音声認識部31と、テキストデータ付加部35とに
より、入力される音声メッセージに対して音声認識処理
を行い、認識結果のテキストデータを付加して送信する
ことにある。そして、受信装置27では、データ分離部
37により、受信したデータを、テキストデータと音声
データとに分離して、そのテキストデータに基づいて、
自動的に、種々の処理を行うことにある。
【0015】すなわち、送信装置25では、デジタルデ
ータ変換部29が、入力される音声メッセージを受け
て、アナログデータである音声メッセージをデジタルデ
ータに変換し、そのデータを、音声認識部31と音声デ
ータ圧縮部33の双方へ送る。音声認識部31は、受け
たデジタルデータに対して音声認識を行い、音声メッセ
ージの内容を表すテキストデータを作成する。一方、そ
れと同時に、音声データ圧縮部33は、受けたデジタル
データに対して圧縮処理を行い、圧縮音声データにす
る。そして、テキストデータ付加部35が、作成された
テキストデータと圧縮音声データを受けて、そのテキス
トデータを圧縮音声データに付加して、受信装置27へ
伝送する。受信装置27では、データ分離部37が、テ
キストデータが付加された圧縮音声データを受けて、そ
れら二つを分離し、データベース39へ送る。データベ
ース39は、送られて来るテキストデータと圧縮音声デ
ータを格納する。それに伴って、自動的に、テキストデ
ータ処理部43が、データベース39に格納されたテキ
ストデータを抽出し、そのテキストデータに基づいて、
要約、分類、検索、情報抽出等の処理を行う。そして、
音声データ処理部41が、各種処理に基づいて選択され
る音声データをデータベース39から抽出し、音声メッ
セージに変換して、ユーザに伝達する。
ータ変換部29が、入力される音声メッセージを受け
て、アナログデータである音声メッセージをデジタルデ
ータに変換し、そのデータを、音声認識部31と音声デ
ータ圧縮部33の双方へ送る。音声認識部31は、受け
たデジタルデータに対して音声認識を行い、音声メッセ
ージの内容を表すテキストデータを作成する。一方、そ
れと同時に、音声データ圧縮部33は、受けたデジタル
データに対して圧縮処理を行い、圧縮音声データにす
る。そして、テキストデータ付加部35が、作成された
テキストデータと圧縮音声データを受けて、そのテキス
トデータを圧縮音声データに付加して、受信装置27へ
伝送する。受信装置27では、データ分離部37が、テ
キストデータが付加された圧縮音声データを受けて、そ
れら二つを分離し、データベース39へ送る。データベ
ース39は、送られて来るテキストデータと圧縮音声デ
ータを格納する。それに伴って、自動的に、テキストデ
ータ処理部43が、データベース39に格納されたテキ
ストデータを抽出し、そのテキストデータに基づいて、
要約、分類、検索、情報抽出等の処理を行う。そして、
音声データ処理部41が、各種処理に基づいて選択され
る音声データをデータベース39から抽出し、音声メッ
セージに変換して、ユーザに伝達する。
【0016】以下、具体例を用いて、上記システムの動
作を説明する。
作を説明する。
【0017】図3は、このシステムにおいて、送信装置
に入力される音声メッセージの一例を示す。
に入力される音声メッセージの一例を示す。
【0018】図3に示すように、音声メッセージは、
『営業の佐藤ですが、あすのミーティングは午後6時か
らになったそうです。出席者が増えたため、場所は大会
議室に変更しました。』と入力される。この音声メッセ
ージを、デジタルデータ変換部29が受けて、デジタル
データに変換し、音声認識部31と音声データ圧縮部3
3へ送る。
『営業の佐藤ですが、あすのミーティングは午後6時か
らになったそうです。出席者が増えたため、場所は大会
議室に変更しました。』と入力される。この音声メッセ
ージを、デジタルデータ変換部29が受けて、デジタル
データに変換し、音声認識部31と音声データ圧縮部3
3へ送る。
【0019】図4は、音声認識部31が、図3に示した
音声メッセージを認識した結果の一例を示す。
音声メッセージを認識した結果の一例を示す。
【0020】図4に示すように、音声認識部31は、入
力された音声メッセージを、『営業佐藤 で菅 明日の
ミーティングは午後6時担ったそうです 出席従えた
場所は大会議室に変更しました』と認識している。この
例では、「ですが→で菅」、「からになった→担っ
た」、「者が増えたため→従えた」といった誤認識をし
ている。しかし、この誤認識は元の入力音声メッセージ
の音質や音声認識処理それ自体の性能に起因するもので
あって、ネットワーク伝送中に生じる種々の誤差要因に
よるものではない。この認識結果であるテキストデータ
は、既に説明したとおり、テキストデータ付加部35へ
送られ、音声データ圧縮部33からの圧縮音声データに
付加されて、伝送される。
力された音声メッセージを、『営業佐藤 で菅 明日の
ミーティングは午後6時担ったそうです 出席従えた
場所は大会議室に変更しました』と認識している。この
例では、「ですが→で菅」、「からになった→担っ
た」、「者が増えたため→従えた」といった誤認識をし
ている。しかし、この誤認識は元の入力音声メッセージ
の音質や音声認識処理それ自体の性能に起因するもので
あって、ネットワーク伝送中に生じる種々の誤差要因に
よるものではない。この認識結果であるテキストデータ
は、既に説明したとおり、テキストデータ付加部35へ
送られ、音声データ圧縮部33からの圧縮音声データに
付加されて、伝送される。
【0021】図5は、テキストデータ付加部35から伝
送される、図4に示したテキストデータが付加された圧
縮音声データの一例を示す。
送される、図4に示したテキストデータが付加された圧
縮音声データの一例を示す。
【0022】図5に示すように、ここでは、テキストデ
ータ付加部35は、受けたテキストデータを、圧縮音声
データの先頭に付加している。また、どこからどこまで
が付加されたテキストデータであるかを明示するため
に、テキストデータの前後に、「/テキストデータ始ま
り」「/テキストデータ終わり」のタグを付加してい
る。付加したこのタグに基づいて、このデジタルデータ
の受信装置であるデータ分離部37は、テキストデータ
と圧縮音声データとを分離し、それらを、データベース
39へ送る。そして、音声データ処理部41が、音声メ
ッセージを伝達すると、自動的に、テキストデータ処理
部43が、音声メッセージ内容を表した誤認識データを
含むテキストデータを、データベース39から抽出し
て、要約、分類、検索、情報抽出等の処理を行う。
ータ付加部35は、受けたテキストデータを、圧縮音声
データの先頭に付加している。また、どこからどこまで
が付加されたテキストデータであるかを明示するため
に、テキストデータの前後に、「/テキストデータ始ま
り」「/テキストデータ終わり」のタグを付加してい
る。付加したこのタグに基づいて、このデジタルデータ
の受信装置であるデータ分離部37は、テキストデータ
と圧縮音声データとを分離し、それらを、データベース
39へ送る。そして、音声データ処理部41が、音声メ
ッセージを伝達すると、自動的に、テキストデータ処理
部43が、音声メッセージ内容を表した誤認識データを
含むテキストデータを、データベース39から抽出し
て、要約、分類、検索、情報抽出等の処理を行う。
【0023】抽出されるテキストデータは、『営業佐藤
で菅 明日の ミーティングは午後6時担ったそうで
す 出席従えた場所は大会議室に変更しました』という
伝送前に音声認識した通りのものである。このテキスト
データに基づいて、テキストデータ処理部43が、要
約、分類、検索、情報抽出の処理を行う。以下、図6を
参照して、それらの処理の具体例を説明する。
で菅 明日の ミーティングは午後6時担ったそうで
す 出席従えた場所は大会議室に変更しました』という
伝送前に音声認識した通りのものである。このテキスト
データに基づいて、テキストデータ処理部43が、要
約、分類、検索、情報抽出の処理を行う。以下、図6を
参照して、それらの処理の具体例を説明する。
【0024】要約処理は、同図に示すような要約ルール
が予め設定されており、このルールを使用して行う。例
えば、[所属]<2>[名前]は、[所属]を表す単語
の後に2個以下の単語が出現した後、[名前]を表す単
語が出現することを表している([所属]、[名前]を
表す単語は、予め複数記憶されている。例えば、[所
属]を表す単語として「営業」、「開発」「企画」…、
[名前]を表す単語として「佐藤」「山田」「小林」…
というような単語が記憶されている。)。そして、テキ
ストデータ上において、テキストデータがこのルールに
合致した場合に、合致した部分の単語が抽出される。例
えば、上記したテキストデータ上では、[所属]<2>
[名前]の要約ルールに合致する単語として、[所属]
を表す「営業」、[名前]を表す「佐藤」がある。そし
て、これら二つの単語の間には、単語が一つも無く、2
個以下という条件にも当てはまるので、「営業」と「佐
藤」が抽出されて出力される。同様に、[時間]<3>
[会議室名]は、[時間]を表す単語の後に3個以下の
単語が出現した後、[会議室名]を表す単語が出現する
ことを表している。従って、上記したテキストデータ上
からは、「午後6時」、「大会議室」が抽出されて出力
される。このように、テキストデータのテキストデータ
に対して、設定されている要約ルールに合致するかが検
証された後、各種要約ルールに合致する全ての単語が抽
出される。抽出された単語を集めたものが要約結果とな
る。このように、ユーザ音声メッセージの内容を聞くこ
と無しに、メッセージ内容の要約を自動的に行えるの
で、ユーザは重要と思われる音声メッセージを優先して
聞くことができる。
が予め設定されており、このルールを使用して行う。例
えば、[所属]<2>[名前]は、[所属]を表す単語
の後に2個以下の単語が出現した後、[名前]を表す単
語が出現することを表している([所属]、[名前]を
表す単語は、予め複数記憶されている。例えば、[所
属]を表す単語として「営業」、「開発」「企画」…、
[名前]を表す単語として「佐藤」「山田」「小林」…
というような単語が記憶されている。)。そして、テキ
ストデータ上において、テキストデータがこのルールに
合致した場合に、合致した部分の単語が抽出される。例
えば、上記したテキストデータ上では、[所属]<2>
[名前]の要約ルールに合致する単語として、[所属]
を表す「営業」、[名前]を表す「佐藤」がある。そし
て、これら二つの単語の間には、単語が一つも無く、2
個以下という条件にも当てはまるので、「営業」と「佐
藤」が抽出されて出力される。同様に、[時間]<3>
[会議室名]は、[時間]を表す単語の後に3個以下の
単語が出現した後、[会議室名]を表す単語が出現する
ことを表している。従って、上記したテキストデータ上
からは、「午後6時」、「大会議室」が抽出されて出力
される。このように、テキストデータのテキストデータ
に対して、設定されている要約ルールに合致するかが検
証された後、各種要約ルールに合致する全ての単語が抽
出される。抽出された単語を集めたものが要約結果とな
る。このように、ユーザ音声メッセージの内容を聞くこ
と無しに、メッセージ内容の要約を自動的に行えるの
で、ユーザは重要と思われる音声メッセージを優先して
聞くことができる。
【0025】分類処理は、例えば、同図に示すような分
類ルールを使用する。このルールは、テキストデータに
記されている音声メッセージが、どんな分類カテゴリに
関連しているメッセージであるのかを推定するためのも
のである。ここでは、種々の単語(例えば「会議室」、
「営業」等)に関して、各分類カテゴリ(例えば「ビジ
ネス」、「趣味」等)における使用頻度(分類スコア)
が記されている。そして、ルールに記されている単語に
該当するテキストデータ上の単語において、分類カテゴ
リ毎にスコアを総計して、スコア数の多い分類カテゴリ
から順に、それぞれ第1候補、第2候補として出力す
る。つまり、その音声メッセージは、出力された候補順
に、その分類カテゴリに関連性が高いと推定できる。例
えば、ルールに記された単語のうち、上記テキストデー
タには、「会議室」と「営業」が記されている。[会議
室]の分類カテゴリは「ビジネス」、「趣味」、「大学
同窓会」の3種類があり、それぞれの分類スコアは「ビ
ジネス」が6、「趣味」が2、「大学同窓会」が3であ
る。また、[営業]の分類カテゴリも同じ3種類があ
り、それぞれの分類スコアは、「ビジネス」が8、「趣
味」が1、「大学同窓会」が3である。そして、これら
2つの単語について、各分類カテゴリのスコアを総計す
ると、「ビジネス」のスコアが14で第1候補、「大学
同窓会」のスコアが6で第2候補となる。この結果、こ
の音声メッセージは「ビジネス」に関連した内容である
と推定され、「ビジネス」に関連した内容として分類さ
れる。このように、音声メッセージの内容を聞くこと無
しに、自動的に分類を行うことができるので、音声メッ
セージの分類作業の省力化が可能になる。
類ルールを使用する。このルールは、テキストデータに
記されている音声メッセージが、どんな分類カテゴリに
関連しているメッセージであるのかを推定するためのも
のである。ここでは、種々の単語(例えば「会議室」、
「営業」等)に関して、各分類カテゴリ(例えば「ビジ
ネス」、「趣味」等)における使用頻度(分類スコア)
が記されている。そして、ルールに記されている単語に
該当するテキストデータ上の単語において、分類カテゴ
リ毎にスコアを総計して、スコア数の多い分類カテゴリ
から順に、それぞれ第1候補、第2候補として出力す
る。つまり、その音声メッセージは、出力された候補順
に、その分類カテゴリに関連性が高いと推定できる。例
えば、ルールに記された単語のうち、上記テキストデー
タには、「会議室」と「営業」が記されている。[会議
室]の分類カテゴリは「ビジネス」、「趣味」、「大学
同窓会」の3種類があり、それぞれの分類スコアは「ビ
ジネス」が6、「趣味」が2、「大学同窓会」が3であ
る。また、[営業]の分類カテゴリも同じ3種類があ
り、それぞれの分類スコアは、「ビジネス」が8、「趣
味」が1、「大学同窓会」が3である。そして、これら
2つの単語について、各分類カテゴリのスコアを総計す
ると、「ビジネス」のスコアが14で第1候補、「大学
同窓会」のスコアが6で第2候補となる。この結果、こ
の音声メッセージは「ビジネス」に関連した内容である
と推定され、「ビジネス」に関連した内容として分類さ
れる。このように、音声メッセージの内容を聞くこと無
しに、自動的に分類を行うことができるので、音声メッ
セージの分類作業の省力化が可能になる。
【0026】検索処理は、ユーザから与えられるキーワ
ードに基づいて行う。同図における例では、検索コマン
ドとして、「佐藤」及び「大会議室」という単語が与え
られ、これらの単語を含んだ音声メッセージをテキスト
データの基づいて検索する。このような検索は、例え
ば、「佐藤さんと明日、大会議室で打ち合わせをするん
だが、打ち合わせが何時から始まるのか忘れてしまっ
た。確かめたい。」というような状況のときに必要とさ
れる。そして、与えられたキーワードから検索処理を行
い、入力されたキーワードを含んだ音声メッセージ、す
なわち、『営業佐藤で菅 明日の ミーティングは午後
6時担ったそうです 出席従えた場所は大会議室に変更
しました』を出力する。このように、音声メッセージの
内容を聞くこと無しに、必要な音声メッセージを探すこ
とができるため、検索作業の容易性を向上させることが
できる。
ードに基づいて行う。同図における例では、検索コマン
ドとして、「佐藤」及び「大会議室」という単語が与え
られ、これらの単語を含んだ音声メッセージをテキスト
データの基づいて検索する。このような検索は、例え
ば、「佐藤さんと明日、大会議室で打ち合わせをするん
だが、打ち合わせが何時から始まるのか忘れてしまっ
た。確かめたい。」というような状況のときに必要とさ
れる。そして、与えられたキーワードから検索処理を行
い、入力されたキーワードを含んだ音声メッセージ、す
なわち、『営業佐藤で菅 明日の ミーティングは午後
6時担ったそうです 出席従えた場所は大会議室に変更
しました』を出力する。このように、音声メッセージの
内容を聞くこと無しに、必要な音声メッセージを探すこ
とができるため、検索作業の容易性を向上させることが
できる。
【0027】情報抽出は、予め設定されている情報抽出
ルールに基づいて行う。同図に示す情報抽出ルールは、
要約ルールと同様のルールと、そのルールから抽出され
た単語を使用して定型文にするルールとが対応されて、
設定されている。例えば、情報抽出ルールの左辺のルー
ル[時間]<3>[会議室名]は、要約ルールと同様
で、[時間]を表す単語の後に3個以下の単語が出現し
た後、[会議室名]を表す単語が出現する状態を表して
いる。この左辺のルールに対応しているのが、右辺のル
ールappointment(room:[会議室],from:[時
間])であり、このルールは、例えばスケジュールプロ
グラムのような指定のアプリケーションを起動し、左辺
のルールに基づいて抽出された[時間]と[会議室名]
の単語を使用して、例えばアポイントメントの入力のよ
うな指定された処理を実行する。これらのルールに基づ
いて行う情報抽出処理を具体的に説明すると、まず左辺
のルールに基づいて、上記したテキストデータから「午
後6時」と「大会議室」という2つの情報を抽出する。
抽出に成功したら、右辺のルールに基づいて、ユーザの
個人スケジュールプログラムを起動し、抽出された情報
「午後6時」と「大会議室」を用いて、例えば、「午後
6時からの大会議室での打ち合わせ」というアポイント
メント情報を、起動した個人スケジュールプログラム
に、自動的に仮入力する。そして、ユーザが、その情報
が仮入力された自分のスケジュールプログラムを確認す
る。このようにして、ユーザは、音声メッセージの内容
を聞くこと無しに、打ち合わせについての必要な情報
を、簡単に入手することができる。
ルールに基づいて行う。同図に示す情報抽出ルールは、
要約ルールと同様のルールと、そのルールから抽出され
た単語を使用して定型文にするルールとが対応されて、
設定されている。例えば、情報抽出ルールの左辺のルー
ル[時間]<3>[会議室名]は、要約ルールと同様
で、[時間]を表す単語の後に3個以下の単語が出現し
た後、[会議室名]を表す単語が出現する状態を表して
いる。この左辺のルールに対応しているのが、右辺のル
ールappointment(room:[会議室],from:[時
間])であり、このルールは、例えばスケジュールプロ
グラムのような指定のアプリケーションを起動し、左辺
のルールに基づいて抽出された[時間]と[会議室名]
の単語を使用して、例えばアポイントメントの入力のよ
うな指定された処理を実行する。これらのルールに基づ
いて行う情報抽出処理を具体的に説明すると、まず左辺
のルールに基づいて、上記したテキストデータから「午
後6時」と「大会議室」という2つの情報を抽出する。
抽出に成功したら、右辺のルールに基づいて、ユーザの
個人スケジュールプログラムを起動し、抽出された情報
「午後6時」と「大会議室」を用いて、例えば、「午後
6時からの大会議室での打ち合わせ」というアポイント
メント情報を、起動した個人スケジュールプログラム
に、自動的に仮入力する。そして、ユーザが、その情報
が仮入力された自分のスケジュールプログラムを確認す
る。このようにして、ユーザは、音声メッセージの内容
を聞くこと無しに、打ち合わせについての必要な情報
を、簡単に入手することができる。
【0028】上述のように、このシステムは、送信側
で、入力された音声メッセージを音声認識してその内容
を表すテキストデータを作成し、受信側で、そのテキス
トデータに基づいて要約、分類、検索、情報抽出等の種
々の処理を行う。それにより、精度の高い音声認識結果
が利用できるので、ユーザの負担を軽くすることができ
る。特に、大量の未処理の音声メッセージがあった場
合、大量の音声メッセージを、重要な内容のものを優先
して迅速に処理することができる。更に、保管している
大量のメッセージから、キーワードを用いて必要なメッ
セージを検索する場合、内容をユーザが聞いてテキスト
化する作業を行うことなく自動検索できるため、音声メ
ッセージの管理コストを軽減することが可能になる。
で、入力された音声メッセージを音声認識してその内容
を表すテキストデータを作成し、受信側で、そのテキス
トデータに基づいて要約、分類、検索、情報抽出等の種
々の処理を行う。それにより、精度の高い音声認識結果
が利用できるので、ユーザの負担を軽くすることができ
る。特に、大量の未処理の音声メッセージがあった場
合、大量の音声メッセージを、重要な内容のものを優先
して迅速に処理することができる。更に、保管している
大量のメッセージから、キーワードを用いて必要なメッ
セージを検索する場合、内容をユーザが聞いてテキスト
化する作業を行うことなく自動検索できるため、音声メ
ッセージの管理コストを軽減することが可能になる。
【0029】以上説明した実施の形態は、あくまで、本
発明の説明のためのものであり、本発明の技術的範囲を
上記実施の形態にのみ限定する趣旨ではない。本発明
は、その趣旨を逸脱することなく、上述の具体的な実施
の形態以外の様々な形態でも実施することが出来る。例
えば、データベースに音声認識済みのボイスメールや顧
客との対話ログを保管しておき、必要な情報を抽出する
というような、音声データ処理の応用形態も考えられ
る。
発明の説明のためのものであり、本発明の技術的範囲を
上記実施の形態にのみ限定する趣旨ではない。本発明
は、その趣旨を逸脱することなく、上述の具体的な実施
の形態以外の様々な形態でも実施することが出来る。例
えば、データベースに音声認識済みのボイスメールや顧
客との対話ログを保管しておき、必要な情報を抽出する
というような、音声データ処理の応用形態も考えられ
る。
【図1】従来技術にかかる音声メッセージ送受信システ
ムの構成の一例を示す図。
ムの構成の一例を示す図。
【図2】本発明の一実施形態にかかる音声メッセージ送
受信システムの構成を示す図。
受信システムの構成を示す図。
【図3】本発明の実施形態において入力される音声メッ
セージの一例を示す図。
セージの一例を示す図。
【図4】同実施形態において入力された音声メッセージ
のテキストデータの一例を示す図。
のテキストデータの一例を示す図。
【図5】同実施形態におけるテキストデータ付き圧縮音
声データの一例を示す図。
声データの一例を示す図。
【図6】同実施形態における各種音声認識処理の具体的
な例を示す図。
な例を示す図。
1 送信装置 3 受信装置 5 デジタルデータ変換部 7 音声データ圧縮部 9 データベース 11 音声変換部 13 データ処理部 25 送信装置 27 受信装置 29 デジタルデータ変換部 31 音声認識部 33 音声データ圧縮部 35 テキストデータ付加部35 37 データ分離部 39 データベース 41 音声データ処理部 43 テキストデータ処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/00 351 G06F 13/00 351G 351B H04M 11/00 302 G10L 9/18 G H04M 11/00 302
Claims (13)
- 【請求項1】 入力される音声メッセージを送信する送
信装置と、 前記送信装置からの前記音声メッセージを受ける受信装
置とを有し、 前記送信装置は、 入力される前記音声メッセージを音声認識し、前記音声
認識の結果を表すテキストデータを作成する音声認識部
と、 前記テキストデータと前記音声メッセージを示す音声デ
ータとを受け、前記テキストデータを前記音声データに
付加して、送信するテキストデータ付加部とを備え、 前記受信装置は、 前記テキストデータが付加された前記音声データを受け
て、前記テキストデータと前記音声データとに分離して
出力するデータ分離部と、 前記テキストデータに所定の処理を行うテキストデータ
処理部と、 前記音声データに所定の処理を行う音声データ処理部と
を備える音声メッセージ送受信システム。 - 【請求項2】 前記テキストデータ処理部が、 (1)定められた要約ルールに該当する単語を全て抽出
し、前記単語を用いて、前記テキストデータの内容を要
約する要約手段と、 (2)定められた分類ルールに該当する単語を利用し
て、前記テキストデータを種々のカテゴリに分類する分
類手段と、 (3)ユーザから与えられる単語に基づいて、前記単語
を含む前記テキストデータを検索する検索手段と、 (4)定められた情報抽出ルールに基づいて、前記テキ
ストデータから、所望の情報を抽出する情報抽出手段と
の少なくとも1つの手段を含む、請求項1記載の音声メ
ッセージ送受信システム。 - 【請求項3】 入力される音声メッセージを音声認識
し、前記音声認識の結果を表すテキストデータを作成す
る音声認識部と、 前記テキストデータと前記音声メッセージを示す音声デ
ータとを受け、前記テキストデータを前記音声データに
付加して、送信するテキストデータ付加部とを有する音
声データの送信装置。 - 【請求項4】 音声メッセージの認識結果を表すテキス
トデータが付加された音声データを受けて、前記テキス
トデータと前記音声データとに分離して出力するデータ
分離部と、 前記テキストデータに所定の処理を行うテキストデータ
処理部と、 前記音声データに所定の処理を行う音声データ処理部と
を有する音声データの受信装置。 - 【請求項5】 入力される音声メッセージを音声認識
し、前記音声認識の結果を表すテキストデータを作成す
る過程と、 前記テキストデータと前記音声メッセージを示す音声デ
ータとを受け、前記テキストデータを前記音声データに
付加して、送信する過程と、 前記テキストデータが付加された前記音声データとを受
けて、前記テキストデータと前記圧縮デジタルデータと
に分離して出力する過程と、 前記テキストデータに所定の処理を行う過程と、 前記音声データに所定の処理を行う過程とを有する音声
メッセージ送受信方法。 - 【請求項6】 入力される音声メッセージを音声認識
し、前記音声認識の結果を表すテキストデータを作成す
る過程と、 前記テキストデータと前記音声メッセージを示す音声デ
ータとを受け、前記テキストデータを前記音声データに
付加して、送信する過程とをコンピュータに実行させる
ためのプログラムを記録したコンピュータ読取可能な記
録媒体。 - 【請求項7】 音声メッセージの音声認識の結果を表す
テキストデータが付加された音声データを受けて、前記
テキストデータと前記音声データとに分離して出力する
過程と、 前記テキストデータに所定の処理を行う過程と、 前記音声データに所定の処理を行う過程とをコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体。 - 【請求項8】 送信しようとする音声メッセージを示す
音声データを受ける過程と、 送信前に前記音声データを音声認識し、前記音声認識の
結果を表すテキストデータを作成する過程とをコンピュ
ータに実行させるためのプログラムを記録したコンピュ
ータ読取可能な記録媒体。 - 【請求項9】 音声データを表したテキストデータを受
ける過程と、 前記テキストデータを前記音声データに付加して、出力
する過程とをコンピュータに実行させるためのプログラ
ムを記録したコンピュータ読取可能な記録媒体。 - 【請求項10】 テキストデータが付加された音声デー
タを受ける過程と、 前記テキストデータと前記音声データとに分離して出力
する過程とをコンピュータに実行させるためのプログラ
ムを記録したコンピュータ読取可能な記録媒体。 - 【請求項11】 音声メッセージの音声認識の結果を表
すテキストデータに対して、 (1)定められた要約ルールに該当する単語を全て抽出
し、前記単語を用いて、前記テキストデータの内容を要
約する過程と、 (2)定められた分類ルールに該当する単語を利用し
て、前記テキストデータを種々のカテゴリに分類する過
程と、 (3)ユーザから与えられる単語に基づいて、前記単語
を含む前記テキストデータを検索する過程と、 (4)定められた情報抽出ルールに基づいて、前記テキ
ストデータから、所望の情報を抽出する過程との少なく
とも1つの過程をコンピュータに実行させるためのプロ
グラムを記録したコンピュータ読取可能な記録媒体。 - 【請求項12】 (1)第一の単語と、前記第一の単語
から所定の範囲内に出現する第二の単語を抽出する複数
の要約ルールと、 (2)複数の単語が、種々の分類カテゴリの重要度を持
つ分類ルールと、 (3)第一の単語と、前記第一の単語から所定の範囲内
に出現する第二の単語を抽出するルールと、抽出される
前記単語をデフォルトするルールとを持つ情報抽出ルー
ルとの少なくとも1つのルールを表した構造を有するデ
ータが記録されたコンピュータ読取可能な記録媒体。 - 【請求項13】 音声メッセージの認識結果を示すテキ
ストデータと、 前記音声メッセージを示す音声データとを含む構造を有
するデータが記録されたコンピュータ読取可能な記録媒
体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10172575A JP2000010578A (ja) | 1998-06-19 | 1998-06-19 | 音声メッセージ送受信システム、及び音声メッセージ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10172575A JP2000010578A (ja) | 1998-06-19 | 1998-06-19 | 音声メッセージ送受信システム、及び音声メッセージ処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000010578A true JP2000010578A (ja) | 2000-01-14 |
Family
ID=15944386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10172575A Pending JP2000010578A (ja) | 1998-06-19 | 1998-06-19 | 音声メッセージ送受信システム、及び音声メッセージ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000010578A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003289387A (ja) * | 2002-03-15 | 2003-10-10 | Microsoft Corp | ボイスメッセージ処理システムおよび方法 |
JP2005189363A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよびプログラム |
GB2417157A (en) * | 2004-08-11 | 2006-02-15 | Siemens Ag | Extracting essential information from an incoming voice message. |
GB2420943A (en) * | 2003-04-22 | 2006-06-07 | Spinvox Ltd | Voicemail converted to text message from which data is parsed for use in a mobile telephone application |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
JP2015100054A (ja) * | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | 音声通信システム、音声通信方法及びプログラム |
JP2015516587A (ja) * | 2012-03-08 | 2015-06-11 | フェイスブック,インク. | 対話から情報を抽出するデバイス |
-
1998
- 1998-06-19 JP JP10172575A patent/JP2000010578A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003289387A (ja) * | 2002-03-15 | 2003-10-10 | Microsoft Corp | ボイスメッセージ処理システムおよび方法 |
JP4619623B2 (ja) * | 2002-03-15 | 2011-01-26 | マイクロソフト コーポレーション | ボイスメッセージ処理システムおよび方法 |
GB2420943A (en) * | 2003-04-22 | 2006-06-07 | Spinvox Ltd | Voicemail converted to text message from which data is parsed for use in a mobile telephone application |
GB2420943B (en) * | 2003-04-22 | 2006-09-27 | Spinvox Ltd | A method of providing voicemails to a mobile telephone |
JP2005189363A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよびプログラム |
GB2417157A (en) * | 2004-08-11 | 2006-02-15 | Siemens Ag | Extracting essential information from an incoming voice message. |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
JP5104762B2 (ja) * | 2006-10-23 | 2012-12-19 | 日本電気株式会社 | コンテンツ要約システムと方法とプログラム |
JP2015516587A (ja) * | 2012-03-08 | 2015-06-11 | フェイスブック,インク. | 対話から情報を抽出するデバイス |
US9514130B2 (en) | 2012-03-08 | 2016-12-06 | Facebook, Inc. | Device for extracting information from a dialog |
US10318623B2 (en) | 2012-03-08 | 2019-06-11 | Facebook, Inc. | Device for extracting information from a dialog |
US10606942B2 (en) | 2012-03-08 | 2020-03-31 | Facebook, Inc. | Device for extracting information from a dialog |
JP2015100054A (ja) * | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | 音声通信システム、音声通信方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037553B2 (en) | Learning-type interactive device | |
US11049493B2 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
US11335330B2 (en) | Updating a voice template | |
US8972261B2 (en) | Computer-implemented system and method for voice transcription error reduction | |
US20100100378A1 (en) | Method of and system for improving accuracy in a speech recognition system | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
US20100049500A1 (en) | Dialogue generation apparatus and dialogue generation method | |
CN111415128B (zh) | 控制会议的方法、系统、装置、设备和介质 | |
US11308951B2 (en) | Information processing apparatus, information processing method, and program | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
JP2020071676A (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
JP2000010578A (ja) | 音声メッセージ送受信システム、及び音声メッセージ処理方法 | |
WO2019119552A1 (zh) | 连续长语音文件的翻译方法与翻译机 | |
US11107469B2 (en) | Information processing apparatus and information processing method | |
JP7055327B2 (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
CN114758665A (zh) | 音频数据增强方法、装置、电子设备及存储介质 | |
CN108831473B (zh) | 一种音频处理方法及装置 | |
JP6585288B2 (ja) | 知識構築活用システムおよびプログラム | |
CN111582708A (zh) | 医疗信息的检测方法、系统、电子设备及计算机可读存储介质 | |
JP6830148B1 (ja) | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム | |
JP2018054926A (ja) | 音声対話装置および音声対話方法 | |
JPH10254478A (ja) | 音声原稿最適照合装置および方法 | |
CN116915894A (zh) | 来电身份识别方法、装置、电子设备和可读存储介质 | |
JP2023002380A (ja) | 人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20040903 |