JP6640279B2

JP6640279B2 - 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム

Info

Publication number: JP6640279B2
Application number: JP2018103751A
Authority: JP
Inventors: 大樹坂内; 達郎五十嵐
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2020-02-05
Anticipated expiration: 2038-05-30
Also published as: JP2019207371A

Description

本発明は、音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システムに関する。

人間が発話した音声メッセージを留守番電話サービスに入力し、音声メッセージをデジタル化したデータである音声情報を音声認識して文字列を生成し、生成した文字列を留守番電話サービスの利用者に送信するサービスが普及しつつある。

例えば、特許文献１には、留守番電話処理サーバ及び音声認識サーバを含む留守番電話システムが記載されている。音声認識サーバは、留守番電話処理サーバが録音した留守番電話のメッセージの音声に対して音声認識処理を実行し、音声認識の結果である文字列を含むテキストデータを留守番電話処理サーバに送信する。留守番電話処理サーバは、受信したテキストデータ及び録音した音声のデータを含む留守番電話データを着信ユーザの携帯電話端末に送信する。留守番電話データを受信した携帯電話端末は、留守番電話データに含まれるテキストデータをテキスト画像として表示し、テキスト画像が表す文字を指定する操作を着信ユーザが行うと、指定された文字に応じた再生位置からメッセージの音声が再生される。また、携帯電話端末は、テキスト画像が表す文字列のうち音声認識の精度が悪い部分を強調表示することができる。

特開２０１７−１１１３３９号公報

特許文献１に記載の発明は文字列のうち音声認識の精度が悪い文字も表示するため、留守番電話サービスの利用者は、精度が悪い文字の認識結果を参照して文字列の意味を解釈し、音声メッセージの内容を誤解することがあった。

本発明は、音声認識処理によって生成された文字列に接した利用者が、音声認識処理の対象となった音声メッセージの内容を誤解するおそれが低い技術を提供することを目的とする。

本発明に係る音声認識結果の出力プログラムは、音声メッセージを示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得処理と、複数の単語のそれぞれを生成したときの音声認識処理の単語信頼度を、複数の単語のそれぞれと関連付けて取得する信頼度取得処理と、複数の単語のそれぞれに関連付けられた単語信頼度に基づいて、認識文字列から単語を抽出する抽出処理と、抽出処理によって抽出された単語を含む表示用文字列を生成する第１文字列生成処理と、表示用文字列を出力する第１出力処理と、を含み、抽出処理は、単語信頼度が所定の第１閾値以上である単語を抽出し、且つ、単語信頼度が第１閾値未満である単語を抽出しない第１抽出処理を含む、処理を演算装置に実行させる。

本発明に係る音声認識結果の出力プログラムにおいて、音声メッセージは、留守番電話サービスへ入力された音声メッセージであり、抽出処理は、第１抽出処理によって抽出された単語から、留守番電話サービスを利用するときに使用されるキーワードであると推定される主要単語と一致する単語を抽出し、且つ、主要単語と一致しない単語を抽出しない第２抽出処理と、第１抽出処理によって抽出された単語の重要度をｉｄｆ（Inverse Document Frequency）値に基づいて算出する重要度算出処理と、重要度算出処理によって算出された重要度が所定の第２閾値以上である単語を抽出し、且つ、重要度が第２閾値未満である単語を抽出しない第３抽出処理と、をさらに含み、且つ、第２抽出処理及び第３抽出処理のいずれかで抽出された単語を抽出し、且つ、第２抽出処理及び第３抽出処理のいずれでも抽出されない単語を抽出しない。

本発明に係る音声認識結果の出力プログラムにおいて、第１文字列生成処理は、抽出処理によって抽出された単語のみを含む表示用文字列を生成する。

本発明に係る音声認識結果の出力プログラムは、利用者からの入力に応じて、認識文字列によって構成される表示用文字列を生成する第２文字列生成処理と、単語信頼度が第１閾値以上である単語の表示形態と、単語信頼度が第１閾値未満である単語の表示形態とが異なる様に、認識文字列によって構成される表示用文字列を出力する第２出力処理と、をさらに演算装置に実行させる。

本発明に係る通信装置は、通信部と、音声を示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得部と、複数の単語のそれぞれを生成したときの音声認識処理の単語信頼度を、複数の単語のそれぞれと関連付けて取得する信頼度取得部と、複数の単語のそれぞれに関連付けられた単語信頼度に基づいて、認識文字列から単語を抽出する抽出部と、抽出部によって抽出された単語を含む表示用文字列を生成する文字列生成部と、表示用文字列を通信部に出力する通信制御部と、を有し、抽出部は、単語信頼度が所定の第１閾値以上である単語を抽出し、且つ、単語信頼度が第１閾値未満である単語を抽出しない。

本発明に係る通信装置及び表示端末を有する音声認識結果の表示システムにおいて、通信装置は、サーバ通信部と、音声メッセージを示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得部と、複数の単語のそれぞれを生成したときの音声認識処理の単語信頼度を、複数の単語のそれぞれと関連付けて取得する信頼度取得部と、複数の単語のそれぞれに関連付けられた単語信頼度に基づいて、認識文字列から単語を抽出する抽出部と、抽出部によって抽出された単語を含む表示用文字列を生成する文字列生成部と、表示用文字列をサーバ通信部に出力する通信制御部と、を有し、表示端末は、通信部と、表示部と、通信部を介して表示用文字列を受信し、受信した表示用文字列を表示部に表示する表示制御部と、を有し、通信装置の抽出部は、単語信頼度が所定の第１閾値以上である単語を抽出し、且つ、単語信頼度が第１閾値未満である単語を抽出しない。

本発明に係るプログラムによれば、音声認識処理によって生成された文字列に接した利用者が、音声認識処理の対象となった音声メッセージの内容を誤解するおそれを軽減できる。

通信システム１における処理概要の一例を示す図である。音声認識により生成された文字列中に信頼度の低い単語が混じる場合の一例を説明する図である。通信システム１の概略構成の一例を示す図である。音声認識サーバ４の概略構成の一例を示す図である。第２端末５の概略構成の一例を示す図である。記憶部５６が記憶する変換結果テーブルの一例を示す図である。通信システム１の動作シーケンスの一例を示す図である。Ｓ２２で示される音声認識サーバ４による音声認識処理の一例を示す図である。Ｓ２７で示される第２端末５による抽出処理の一例を示す図である。Ｓ２８で示される第２端末５による表示再生処理の一例を示す図である。表示部５３に表示用文字列を表示した一例を示す図である。Ｓ７３で示される第２端末５による再生処理の一例を示す図である。第１変形例に係る通信システム１の動作シーケンスの一例を示す図である。第２変形例に係る音声認識サーバ１４の概略構成の一例を示す図である。第２変形例に係る第２端末１５の概略構成の一例を示す図である。第２変形例に係る通信システム１１の動作シーケンスの一例を示す図である。第３変形例に係る表示再生処理の一例を示す図である。表示部５３に表示用文字列を表示した一例を示す図である。

以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

図１は、通信システム１における処理概要の一例を示す図である。

通信システム１は、第１端末２、音声認識サーバ４、第２端末５等を有する。第１端末２は、留守番電話サーバ（不図示）に音声メッセージを入力する通信端末の一例であり、例えばスマートフォン及びフィーチャーフォン等の携帯電話端末である。音声認識サーバ４は、留守番電話サーバが記憶する音声情報に対して音声認識処理を実行して、複数の単語によって構成される文字列を生成する。第２端末５は、音声認識サーバ４が生成した文字列を表示する装置の一例であり、例えばスマートフォン及びフィーチャーフォン等の携帯電話端末である。第２端末５は、表示部５３を有する。

音声認識サーバ４はさらに、文字列を構成する単語毎に音声認識処理の信頼度（以下、単語信頼度とも称する）を算出する。単語信頼度は、例えば事後確率により算出される。単語信頼度を算出する技術は、よく知られているので、ここでは詳細な説明は省略する。単語信頼度は、０〜１の値をとり、０に近いほど信頼度が低い、即ち音声認識処理の過程で生成された他の単語の中に有力な候補があることを示し、１に近いほど信頼度が高い、即ち他の単語の中に有力な候補がないことを示す。

図１に示す例において、第１端末２の利用者は、第２端末５宛に電話をかけたが第２端末５の利用者は電話に出ず、第１端末２は留守番電話サーバに接続される。第１端末２の利用者は、「帰りにいつものマヨネーズ買ってきて」という音声メッセージを第１端末２に入力し、音声情報として留守番電話サーバに記憶させる。

音声認識サーバ４は、留守番電話サーバが第２端末５宛の音声情報を記憶したことを検出し、音声情報に対して音声認識処理を実行する。ここで、音声認識サーバ４は、音声認識処理によって「帰りにいつもの前のやつ買ってきて」という文字列を生成したとする。即ち、音声認識サーバ４は、「帰り」「に」「いつも」「の」「買って」「きて」の各単語については正しく認識したが、「マヨネーズ」を「前」「の」「やつ」と誤認識した。日本語において、「マヨネーズ」と「前のやつ」とは発音およびアクセントが互いに似ているため、このような誤認識が起こり得る。また、音声認識サーバ４は、正しく認識した各単語の信頼度として、それぞれ０．８〜０．９を算出したが、誤認識した「前」「の」「やつ」の各単語の信頼度として、０．５〜０．６を算出した。音声認識サーバ４は、生成した複数の単語と、複数の単語のそれぞれに関連付けた信頼度とを第２端末５に送信する。

第２端末５は、受信した複数の単語の中から信頼度が第１閾値である０．７以上の単語を抽出し、表示する文字列を生成する。第２端末５は、信頼度が第１閾値以上の単語から構成された「帰りに」「いつもの」「買ってきて」の３つの文字列は表示部５３に表示するが、信頼度が第１閾値未満である「前」「の」「やつ」の各単語は表示部５３に表示しない。第２端末５は、信頼度が第１閾値未満の単語を表示しないため、信頼度が低い単語に基づいて利用者が音声メッセージの内容を誤解することは、減少する。

以下に説明する各実施形態は、特に、音声認識により生成された文字列中に信頼度の低い単語が混じる場合に有効である。

図２は、一般的な音声認識技術により生成された文字列中に信頼度の低い単語が混じる理由の一例を説明する図である。

一般に音声認識処理では、人間の発する音声を構成する「ａ」、「ｉ」、「ｋ」等の音素の周波数特性を表す音響モデル、音素の並びと単語との対応付けを表す発音辞書、及び、単語の並び方に関する制約を表す言語モデルが使用される。音声認識処理は、音響モデル、発音辞書及び言語モデルを用いて、音声情報から変換候補として複数の文字列を生成し、複数の文字列の中から一つの文字列を選択して認識結果として出力する。以下、音声情報に対応する変換候補を候補文字列と称し、音声情報に対応する認識結果を認識文字列と称することがある。留守番電話サービスを利用して録音した音声情報の場合、候補文字列及び認識文字列は、通常一つ以上の文を含み、一つの文は、複数の単語から構成される。

音声認識処理は、多くの場合、音声情報の先頭から順に単語の候補を複数抽出し、複数の単語の候補から候補文字列を生成し、候補文字列の中から認識文字列を選択する。

ここで、各単語の信頼度である単語信頼度は、音響モデル及び発音辞書に基づいて算出されるが、認識文字列は、音響モデル及び発音辞書に加えて言語モデルに基づいて生成される場合を考える。単語信頼度が高い単語を抽出する場合、例えば、図中の点線で示すように、（１）では名詞Ａ、（２）では動詞α、（３）では助動詞ｂがそれぞれ抽出されたとする。ここで、認識文字列を生成するために単語を抽出する場合、単語の並び方に関する制約を考慮する。例えば、（１）の名詞Ａの後に動詞が続くことは通常ないという制約があるとする。この場合、（２）では動詞α、βより単語信頼度の低い助詞γが選択される。また、例えば、（２）の助詞γの後に助動詞が続くことは通常ないという制約があるとする。この場合、（３）では助動詞ｂより単語信頼度の低い動詞ａが選択される。

このように、音声認識の信頼度を単語単位ではなく文単位で考慮した場合には、複数の単語選択肢（例えば単語α、βおよびγ）のうちから信頼度の低い単語（例えば単語γ）を選択したほうが、むしろ文単位での信頼度が向上する、ということが起こり得る。このようにして、文全体の音声認識信頼度が低くはない場合であっても、その認識文字列中には、助詞γや動詞ａのように単語信頼度が低い単語が混じることがある。

音声認識処理の対象となった音声メッセージの内容を誤解するおそれを軽減するために、音声認識の信頼度が低い文全体を表示しないといった工夫も考えられる。しかし、たとえ音声認識の信頼度が高い文のみを表示する実装をしたとしても、「マヨネーズ」と「前のやつ」という具体例にて示した通り、依然として音声メッセージ（帰りにいつものマヨネーズ買ってきて）の内容を誤解させてしまうような一文（帰りにいつもの前のやつ買ってきて）を表示させてしまうことが起こり得る。

本発明者は、留守番電話サービスの特性を鑑みて、認識文字列を文単位でみた場合には音声認識信頼度が低くはない場合であっても、その認識文字列中に混じる信頼度の低い単語が音声メッセージの内容を誤解させてしまうことがあり得るという技術的課題を見出した。前述した具体例において、「帰りにいつもの前のやつ買ってきて」というメッセージを受け取った第２端末５の利用者が「前のやつ」についてマヨネーズとは別の心当たりを有する場合には、第２端末５の利用者は、第１端末２の利用者が意図しない全く別のものを買ってきてしまうことにもなりかねない。

＜実施形態＞
図３は、通信システム１の概略構成の一例を示す図である。

通信システム１は、第１端末２、留守番電話サーバ３、音声認識サーバ４、第２端末５等を有する。第１端末２、留守番電話サーバ３、音声認識サーバ４及び第２端末５は、ＬＴＥ（Long Term Evolution）ネットワーク、インターネット等の通信ネットワーク６を介して接続される。

第１端末２は、ＶｏＬＴＥ（Voice over LTE）等の通信方式により、通信ネットワーク６を介して第２端末５へ音声通話を要求する。第１端末２は、第２端末５が応答しないとき、利用者に音声メッセージを入力させ、入力された音声メッセージを留守番電話サーバ３に送信する。

留守番電話サーバ３は、留守番電話サービスを提供するサーバである。留守番電話サーバ３は、第１端末２から入力された第２端末５宛の音声メッセージを音声情報として記憶し、第２端末５宛の音声情報を記憶したことを通信ネットワーク６を介して第２端末５に通知する。留守番電話サーバ３は、記憶した音声情報を第２端末５からの要求に応じて第２端末５に送信する。

図４は、音声認識サーバ４の概略構成の一例を示す図である。

音声認識サーバ４は、音声情報を第２端末５から受信して、受信した音声情報に対して音声認識処理を実行する。音声認識サーバ４は、音声認識処理によって生成された認識文字列に含まれる複数の単語、及び、複数の単語のそれぞれを生成したときの音声認識処理の信頼度を生成し、単語と信頼度とを関連付けて第２端末５に送信する。そのために、音声認識サーバ４は、サーバ通信部４１と、サーバ記憶部４２と、サーバ処理部４３とを有する。

サーバ通信部４１は、ＬＴＥ等の無線の通信インターフェース回路を有する。サーバ通信部４１は、通信ネットワーク６を介して、第２端末５等と通信を行い、第２端末５等から受信したデータをサーバ処理部４３に供給する。サーバ通信部４１は、サーバ処理部４３から供給されたデータを第２端末５等に送信する。

サーバ記憶部４２は、例えば、半導体メモリ、磁気ディスク装置、及び光ディスク装置のうちの少なくとも一つを有する。サーバ記憶部４２は、サーバ処理部４３による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。

例えば、サーバ記憶部４２は、ドライバプログラムとして、サーバ通信部４１を制御する通信デバイスドライバプログラム等を記憶する。また、サーバ記憶部４２は、オペレーティングシステムプログラムとして、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の通信方式による接続制御プログラム等を記憶する。また、サーバ記憶部４２は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory）等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いてサーバ記憶部４２にインストールされてもよい。

サーバ記憶部４２には、音声認識処理に用いる音響モデル、発音辞書及び言語モデルが記憶される。

サーバ処理部４３は、一又は複数個のプロセッサ及びその周辺回路を有する。サーバ処理部４３は、音声認識サーバ４の全体的な動作を統括的に制御し、例えば、制御装置及び演算装置を有するＣＰＵ（Central Processing Unit）である。サーバ処理部４３は、音声認識サーバ４の各種処理がサーバ記憶部４２に記憶されているプログラム等に応じて適切な手順で実行されるように、サーバ通信部４１等の動作を制御する。サーバ処理部４３は、サーバ記憶部４２に記憶されているプログラム（ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等）に基づいて処理を実行する。また、サーバ記憶部４２は、複数のプログラム（アプリケーションプログラム等）を並列に実行できる。

サーバ処理部４３は、通信制御部４３１、音声認識部４３４及び重要度算出部４３５を有する。音声認識部４３４は、音響分析部４３２及びデコーダ部４３３を有する。サーバ処理部４３が有するこれらの各部は、サーバ処理部４３が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、サーバ処理部４３が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして音声認識サーバ４に実装されてもよい。

図５は、第２端末５の概略構成の一例を示す図である。

本実施形態において、第２端末５は、表示端末の一例である。第２端末５は、留守番電話サーバ３から留守電通知を受信すると、留守番電話サーバ３に音声情報取得要求を送信する。第２端末５は、留守番電話サーバ３から音声情報を受信すると、音声認識サーバ４に音声情報変換要求を送信する。第２端末５は、音声情報変換要求に対応する音声認識結果である単語等を受信すると、単語等から表示用文字列を生成し、表示する。そのために、第２端末５は、通信部５１と、入力部５２と、表示部５３と、音声入力部５４と、音声出力部５５と、記憶部５６と、処理部５７とを有する。

通信部５１は、ＬＴＥ等の無線の通信インターフェース回路を有する。通信部５１は、通信ネットワーク６を介して、留守番電話サーバ３、音声認識サーバ４等と通信を行う。通信部５１は、留守番電話サーバ３、音声認識サーバ４等から受信したデータを処理部５７に供給する。通信部５１は、処理部５７から供給されたデータを留守番電話サーバ３、音声認識サーバ４等に送信する。

入力部５２は、第２端末５の操作が可能であればどのようなデバイスでもよく、例えば、タッチパネルである。入力部５２は、第２端末５の利用者の指示を受け付け、受け付けた指示に対応する信号を発生し、処理部５７に出力する。

表示部５３は、画像等の出力が可能であればどのようなデバイスでもよく、例えば、タッチパネル式の表示装置、液晶ディスプレイ、有機ＥＬ（Electro−Luminescence）ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイ等である。表示部５３は、処理部５７から供給されるデータに応じた画像等を表示する。なお、タッチパネルディスプレイを用いて、入力部５２と表示部５３とを一体に構成してもよく、本実施形態においては、入力部５２と表示部５３とが一体に構成されているタッチパネルディスプレイを使用する。

音声入力部５４は、マイクロフォン、増幅器及びＡ／Ｄ変換器等を有し、入力された音声をデジタルの音声データに変換して処理部５７へ出力する電気回路である。

音声出力部５５は、例えば、スピーカ等である。音声出力部５５は、処理部５７から供給される音声データに応じた音声を発する。

記憶部５６は、例えば、半導体メモリ、磁気ディスク装置、及び光ディスク装置のうちの少なくとも一つを有する。記憶部５６は、処理部５７による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。

例えば、記憶部５６は、ドライバプログラムとして、通信部５１を制御する通信デバイスドライバプログラム等を記憶する。また、記憶部５６は、オペレーティングシステムプログラムとして、ＴＣＰ／ＩＰ等の通信方式による接続制御プログラム等を記憶する。また、記憶部５６は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて記憶部５６にインストールされてもよい。

記憶部５６には、留守番電話メッセージにおける主要単語、留守番電話サーバ３から送信される音声情報、音声認識サーバ４から送信される複数の単語等から生成される変換結果テーブル等が記憶される。留守番電話メッセージにおける主要単語とは、留守番電話サービスを利用するときに使用されるキーワードであると推定される単語であり、「折り返し」、「電話」等の単語が該当する。

図６は、記憶部５６が記憶する変換結果テーブルの一例を示す図である。

変換結果テーブルは、音声情報毎に生成され、音声認識処理により生成された認識文字列を構成する単語、音声情報における単語の開始時点及び終了時点を相互に関連付けて記憶する。音声情報における単語の開始時点は、音声情報の先頭部分からその単語に対応する部分の先頭までの再生に要する時間を示し、終了時点は、音声情報の先頭部分からその単語に対応する部分の末尾までの再生に要する時間を示す。変換結果テーブルは、さらに単語信頼度、単語の重要度を表すためのｔｆ（Term Frequency）値及びｉｄｆ（Inverse Document Frequency）値等を相互に関連付けて記憶する。変換結果テーブルは、単語の数に応じて行の数が変化する可変長のテーブルである。

ｔｆ値とは、認識文字列における単語Ｘの出現回数Ｃｘを、認識文字列における全ての単語の出現回数の和Ｃａで除した値（Ｃｘ／Ｃａ）であり、認識文字列に単語Ｘが多く現れるほど大きな値となる。認識文字列に多く現れる単語ほど、認識文字列において重要であると考えられるため、ｔｆ値が大きいことは、その単語が認識文字列において重要であることを示す。

ｉｄｆ値とは、現在までに生成された認識文字列の総数Ｓａを、単語Ｘを含む認識文字列の数Ｓｘで除した値の対数（ｌｏｇ（Ｓａ／Ｓｘ））であり、単語Ｘを含む認識文字列の数が少ないほど大きな値となる。特定の認識文字列にのみ現れる単語はその認識文字列を他と区別するために重要であると考えられるため、ｉｄｆ値が大きいことは、その単語が認識文字列を区別するために重要であることを示す。例えば、「わたくし」、「失礼」、「します」などの単語は多くの留守番電話メッセージに使用されているため、これらの単語のｉｄｆ値は小さくなる。

処理部５７は、一又は複数個のプロセッサ及びその周辺回路を有する。処理部５７は、第２端末５の全体的な動作を統括的に制御し、例えば、制御装置及び演算装置を有するＣＰＵである。処理部５７は、第２端末５の各種処理が記憶部５６に記憶されているプログラム等に応じて適切な手順で実行されるように、通信部５１等の動作を制御する。処理部５７は、記憶部５６に記憶されているプログラム（ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等）に基づいて処理を実行する。また、処理部５７は、複数のプログラム（アプリケーションプログラム等）を並列に実行できる。

処理部５７は、留守電処理部５７１、変換処理部５７２、認識文字列取得部５７３、信頼度取得部５７４、抽出部５７５及び表示制御部５７７を有する。処理部５７が有するこれらの各部は、処理部５７が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、処理部５７が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして第２端末５に実装されてもよい。

図７は、通信システム１の動作シーケンスの一例を示す図である。

以下、図７に示したシーケンス図を参照しつつ、通信システム１の動作の例を説明する。以下に説明する動作シーケンスは、各装置において予め各装置の記憶部に記憶されているプログラムに基づき、主に各装置の処理部により各装置の各要素と協働して実行される。

最初に、第１端末２の利用者が第２端末５宛の通話指示を第１端末２に与えると、第１端末２は、第２端末５に通話要求を送信する（Ｓ１１）。第１端末２は、例えば、ＳＩＰ（Session Initiation Protocol）を用いて、セッション管理サーバ（不図示）を介して第２端末５にセッション確立要求を送信する。

次に、第１端末２は、所定時間を経過しても第２端末５から通話応答を受信しないとき、留守番電話サービスへ音声メッセージを入力するために、留守番電話サーバ３に第１端末２及び第２端末５の電話番号を送信し、留守番電話サーバ３と通信を開始する。

次に、第１端末２は、第１端末２の利用者が発話する第２端末５宛の音声メッセージを入力し、入力される音声メッセージをデジタル化して順次パケットに格納し、パケットを留守番電話サーバ３に送信する（Ｓ１２）。

次に、留守番電話サーバ３は、受信したパケットから音声情報を生成し、生成した音声情報を、音声情報を一意に識別可能な音声情報識別子と、入力元である第１端末２及び宛先である第２端末５の電話番号と共に記憶する（Ｓ１３）。次に、留守番電話サーバ３は、音声情報識別子を含む音声情報の受信通知を第２端末５に送信する（Ｓ１４）。

次に、第２端末５の留守電処理部５７１は、留守番電話サーバ３から通信部５１を介して音声情報の受信通知を受信する（Ｓ１５）。次に、留守電処理部５７１は、音声情報識別子を含む情報取得要求を、通信部５１を介して留守番電話サーバ３に送信する（Ｓ１６）。

次に、留守番電話サーバ３は、情報取得要求を受信すると（Ｓ１７）、記憶する音声情報の中から音声情報識別子に対応する音声情報を選択し、第２端末５に送信する（Ｓ１８）。

次に、第２端末５の留守電処理部５７１は、留守番電話サーバ３から通信部５１を介して音声情報を受信することにより音声情報を取得する音声情報取得処理を実行し（Ｓ１９）、記憶部５６に記憶する。次に、変換処理部５７２は、音声情報を含む音声情報変換要求を、通信部５１を介して音声認識サーバ４に送信する（Ｓ２０）。第２端末５がＳ１９及びＳ２０の処理を実行することにより、留守番電話サーバ３を運用する事業者と異なる事業者が音声認識サーバ４を運用することができる。即ち、留守番電話サーバ３は音声認識サーバ４へ音声情報を送信しないため、留守番電話サーバ３を運用する事業者は、第１端末２と第２端末５との間の通信の秘密の保護を害することがない。

次に、音声認識サーバ４の通信制御部４３１は、第２端末５からサーバ通信部４１を介して音声情報変換要求を受信する（Ｓ２１）。次に、音声認識部４３４は、音声情報変換要求に含まれる音声情報に対して音声認識処理を実行する（Ｓ２２）。音声認識処理において、音声認識部４３４は、複数の単語を生成する。音声認識処理の詳細については後述する。

次に、音声認識サーバ４の重要度算出部４３５は、音声認識部４３４が生成した複数の単語について重要度を算出し、重要度と単語とを関連付けてサーバ記憶部４２に記憶する（Ｓ２３）。例えば、重要度算出部４３５は、音声認識部４３４が生成した全ての単語についてｔｆ値及びｉｄｆ値を算出し、単語と関連付けてサーバ記憶部４２に記憶する。

次に、通信制御部４３１は、音声認識部４３４が生成した情報及び重要度算出部４３５が算出した重要度を含む生成情報を、サーバ通信部４１を介して第２端末５に送信する（Ｓ２４）。生成情報は、音声情報から変換された文字データである複数の単語、音声情報における複数の単語それぞれの開始時点、終了時点、複数の単語のそれぞれを生成したときの音声認識処理の単語信頼度及び重要度を含む。

次に、第２端末５の変換処理部５７２は、音声認識サーバ４から通信部５１を介して生成情報を受信する（Ｓ２５）。変換処理部５７２は、受信した生成情報から変換結果テーブルを生成し、記憶部５６に記憶する。

次に、認識文字列取得部５７３は、変換結果テーブルから認識文字列を取得する認識文字列取得処理を実行し、信頼度取得部５７４は、変換結果テーブルから単語信頼度等を複数の単語のそれぞれと関連付けて取得する信頼度取得処理を実行する（Ｓ２６）。以下、認識文字列取得処理及び信頼度取得処理の両方を含む処理を、取得処理と称することがある。次に、抽出部５７５は、取得した複数の単語のそれぞれに関連付けられた単語信頼度に基づいて、認識文字列から単語を抽出する抽出処理を実行する（Ｓ２７）。抽出処理の詳細については後述する。

次に、文字列生成部５７６は、抽出された表示用単語を含む表示用文字列を生成する第１文字列生成処理を実行し、表示制御部５７７は、生成した表示用文字列を表示部５３に出力し、表示させる第１出力処理を実行する（Ｓ２８）。以下、第１文字列生成処理と第１出力処理とを含む処理を、表示再生処理と称することがある。表示再生処理の詳細については後述する。以上により、一連のシーケンスは終了する。

図８は、Ｓ２２で示される音声認識サーバによる音声認識処理の一例を示す図である。

最初に、音響分析部４３２は、受信した音声情報変換要求に含まれる音声情報に対して音響分析を実行する（Ｓ３１）。音響分析部４３２は、音声情報に対してスペクトラム分析を実行して、特徴ベクトルを求める。

次に、デコーダ部４３３は、音響モデル、発音辞書及び言語モデルを用いて、特徴ベクトルから認識文字列を生成する（Ｓ３２）。例えば、デコーダ部４３３は、隠れマルコフモデル（ＨＭＭ）によりモデル化された音響モデル及び発音辞書を用いて、音声情報の音響的特徴から音素の系列を求める。デコーダ部４３３は、発音辞書及び言語モデルを用いて、音素の系列から複数の単語と、複数の単語から構成される認識文字列とを生成する。デコーダ部４３３は、認識文字列を構成する複数の単語を生成する際に、それぞれの単語に対して有力な変換候補となる単語が存在する程度に応じて、その単語の単語信頼度を算出する。デコーダ部４３３は、音声情報における音響的特徴の出現時点から、各単語の開始時点及び終了時点を算出する。デコーダ部４３３は、生成した複数の単語を、その開始時点、終了時点及び単語信頼度と関連付けてサーバ記憶部４２に記憶する。以上により、音声認識処理は終了する。

図９は、Ｓ２７で示される第２端末５による抽出処理の一例を示す図である。

最初に、抽出部５７５は、認識文字列取得部５７３が取得した認識文字列を構成する単語のうち、表示用単語として抽出可能か否かを判定していない単語が存在するか否かを判定する（Ｓ５１）。抽出可能か否かを判定していない単語が存在しないとき（Ｓ５１−Ｎ）、抽出処理は終了する。

抽出可能か否かを判定していない単語が存在するとき（Ｓ５１−Ｙ）、抽出部５７５は、判定していない単語の中から一つの単語を選択する（Ｓ５２）。次に、抽出部５７５は、選択した単語に関連付けられた単語信頼度が所定の第１閾値以上か否かを判定する（Ｓ５３）。単語信頼度が第１閾値未満のとき（Ｓ５３−Ｎ）、抽出部５７５は、選択した単語を表示用単語として抽出せずに処理をＳ５１に進める。抽出部５７５は、単語信頼度が第１閾値未満の単語を表示用単語として抽出しないので、単語信頼度の低い単語に基づいて利用者が音声メッセージの内容を誤解することを防止できる。

単語信頼度が第１閾値以上のとき（Ｓ５３−Ｙ）、抽出部５７５は、選択した単語が記憶部５６に記憶された主要単語と一致するか否かを判定する（Ｓ５４）。選択した単語が主要単語と一致するとき（Ｓ５４−Ｙ）、抽出部５７５は、選択した単語を表示用単語として抽出し、記憶部５６に記憶して（Ｓ５７）、処理をＳ５１に進める。

選択した単語が主要単語と一致しないとき（Ｓ５４−Ｎ）、抽出部５７５は、音声認識処理によって現在までに生成された認識文字列の集合に基づいて、選択した単語の重要度を算出する重要度算出処理を実行する（Ｓ５５）。例えば、抽出部５７５は、選択した単語に関連付けられたｔｆ値及びｉｄｆ値の積であるｔｆ−ｉｄｆ値を重要度として算出する。以下、主要単語と一致する単語を抽出し、且つ、主要単語と一致しない単語を抽出しない処理を、第２抽出処理と称することがある。

次に、抽出部５７５は、算出された重要度が、所定の第２閾値以上か否かを判定する（Ｓ５６）。重要度が第２閾値以上のとき（Ｓ５６−Ｙ）、抽出部５７５は、選択した単語を表示用単語として抽出し、記憶部５６に記憶して（Ｓ５７）、処理をＳ５１に進める。重要度が第２閾値未満のとき（Ｓ５６−Ｎ）、抽出部５７５は、取得した単語を表示用単語として抽出せずに処理をＳ５１に進める。以下、重要度が第２閾値以上である単語を抽出し、且つ、重要度が第２閾値未満である単語を抽出しない処理を、第３抽出処理と称することがある。

ｉｄｆ値が一定であればｔｆ値が大きいほどｔｆ−ｉｄｆ値は大きくなるため、Ｓ５６及びＳ５７の処理は、ある単語のｔｆ値が大きいほど、その単語は表示用単語として抽出されやすくなることを示している。また、ｔｆ値が一定であればｉｄｆ値が大きいほどｔｆ−ｉｄｆ値は大きくなるため、Ｓ５６及びＳ５７の処理は、ある単語のｉｄｆ値が大きいほど、その単語は表示用単語として抽出されやすくなることを示している。

なお、Ｓ５４〜Ｓ５６の処理は、第２抽出処理及び第３抽出処理のいずれかで抽出された単語がＳ５７で表示用単語として抽出され、第２抽出処理及び第３抽出処理のいずれでも抽出されない単語が表示用単語として抽出されないなら、他の処理であってもよい。例えば、抽出部５７５は、Ｓ５３−Ｙのときに重要度算出処理（Ｓ５５）及び重要度の判定（Ｓ５６）を実行し、重要度が第２閾値以上のときに、処理をＳ５７に進めてもよい。重要度が第２閾値未満のときには、抽出部５７５は、重要度が第２閾値未満と判定された単語が主要単語と一致するか否かの判定（Ｓ５４）を実行し、一致するときは処理をＳ５７に進め、一致しないときは処理をＳ５１に進める。

ここで、第２抽出処理及び第３抽出処理との関係について、具体例を述べて簡単に説明する。第３抽出処理は、留守番電話メッセージにおいてありふれた単語（例：「わたくし」「よろしく」など）は情報としての価値が低いとの思想から、そのような単語を抽出しないために実行される処理である。しかしながら、留守番電話メッセージにおいてありふれた単語であっても、留守番電話の文脈においては情報としての価値が高い単語が存在することを本発明者は見出した。例えば、「折り返し」といった単語は、留守番電話メッセージにおいてありふれた単語であり、重要度は低く算出されてしまうが、実際のところ、留守番電話の文脈においては情報としての価値が高い。そこで、第３抽出処理において重要度が低いと判定され抽出されないような単語であっても、留守番電話の文脈において情報としての価値が高いと考えられる一部の単語（主要単語）については、重要度の高低にかかわらず第２抽出処理にて抽出する。これにより、留守番電話において情報としての価値の高い単語をより適切に抽出することができる。

図１０は、Ｓ２８で示される第２端末５による表示再生処理の一例を示す図である。

最初に、文字列生成部５７６は、抽出処理により抽出した表示用単語を含む表示用文字列を生成する第１文字列生成処理を実行する（Ｓ７１）。例えば、文字列生成部５７６は、図６に示す変換結果テーブルの内容に応じて図９に示す抽出処理により抽出された表示用単語を取得する。ここで、第１閾値＝０．７であり、且つ、単語信頼度が第１閾値以上の単語はすべて表示用単語として抽出されたと仮定すると、表示用単語は、「帰り」「に」「いつも」「の」「買って」「きて」である。文字列生成部５７６は、抽出処理によって抽出された単語のみを含む表示用文字列を第１文字列生成処理において生成してもよい。また、文字列生成部５７６は、一つの表示用単語から一つの表示用文字列を生成しても、複数の表示用単語を組み合わせて一つの表示用文字列を生成してもよい。

複数の表示用単語を組み合わせて一つの表示用文字列を生成する場合、文字列生成部５７６は、開始時点の早い単語から順にその単語の品詞と後続する単語の品詞との関係を判定し、その結果に応じて、隣接する単語を一つの表示用文字列にするか否かを決定する。例えば、文字列生成部５７６は、動詞「帰り」と助詞「に」とを組み合わせて「帰りに」を生成するが、助詞「に」と副詞「いつも」とは組み合わせず、「帰りに」を一つの表示用文字列として生成する。次に、文字列生成部５７６は、副詞「いつも」と助詞「の」を組み合わせて「いつもの」を生成するが、助詞「の」終了時点と動詞「買って」との開始時点とが所定の閾値以上異なるため、助詞「の」と動詞「買って」とは組み合わせない。文字列生成部５７６は、「いつもの」を一つの表示用文字列として生成する。次に、文字列生成部５７６は、動詞「買って」と接尾辞「きて」を組み合わせて「買ってきて」を一つの表示用文字列として生成する。

次に、表示制御部５７７は、表示用文字列を記憶部５６に一時的に記憶すると共に、表示用文字列を表示部５３に出力する第１出力処理を実行する（Ｓ７２）。第１出力処理を実行することによって、表示用文字列は、表示部５３に表示される。この際、表示制御部５７７は、表示用文字列に含まれる単語の開始時点が早い順に表示用文字列を並べて、表示部５３に表示する。

図１１は、上述した処理に基づいて表示部５３に表示用文字列を表示した一例を示す図である。

次に、表示制御部５７７は、記憶部５６に記憶する変換結果テーブルと音声情報とを用いて再生処理を実行する（Ｓ７３）。

図１２は、Ｓ７３で示される第２端末５による再生処理の一例を示す図である。

最初に、表示制御部５７７は、利用者による再生処理開始の指示が入力部５２から入力されたことを検出すると、変換結果テーブルに記憶された全ての単語、即ち認識文字列を表示用文字列として抽出する（Ｓ８１）。次に、表示制御部５７７は、表示用文字列を表示部５３に出力し、表示する（Ｓ８２）。表示制御部５７７は、表示用文字列を構成する単語の単語信頼度に応じて、各単語の表示形式を異ならせてもよい。

次に、表示制御部５７７は、利用者による指示が入力部５２から入力されるまで待機する（Ｓ８３）。利用者による指示が入力部５２から入力されると、表示制御部５７７は、入力内容を判定する（Ｓ８４）。入力内容が処理終了のとき、再生処理は終了する。

入力内容が単語の指定のとき、表示制御部５７７は、指定された単語がＳ７２で表示されていたか否かを、記憶部５６に一時的に記憶した表示用文字列を参照して判定する（Ｓ８５）。指定された単語がＳ７２で表示されていたとき（Ｓ８５−Ｙ）、表示制御部５７７は、処理をＳ８３に進める。

指定された単語がＳ７２で表示されていなかったとき（Ｓ８５−Ｎ）、表示制御部５７７は、変換結果テーブルを参照して、指定された単語に関連付けられた開始時点を取得する開始時点取得処理を実行する（Ｓ８６）。

次に、表示制御部５７７は、記憶部５６に記憶された音声情報を読み取り、音声情報における開始時点に応じた音声再生時点から音声メッセージを再生する音声再生処理を実行し（Ｓ８７）、音声メッセージを音声出力部５５から出力する。表示制御部５７７は、開始時点を音声再生時点としてもよいし、指定された単語に関連付けられた開始時点より所定の時間だけ前の時点を音声再生時点としてもよい。次に、表示制御部５７７は、処理をＳ８３に進める。

実施形態に係る第２端末５は、単語信頼度が所定の第１閾値以上である単語を抽出するが、単語信頼度が第１閾値未満の単語を抽出しない、第１抽出処理を実行する。第２端末５は、単語信頼度が第１閾値未満の単語を表示しないので、音声認識処理によって生成された単語を読んだ利用者が、単語信頼度が第１閾値未満の単語に基づいて音声メッセージの内容を誤解することを防止できる。

ここで、本実施形態にかかる効果の一具体例を説明する。前述したように、第１端末２の利用者が「帰りにいつものマヨネーズ買ってきて」と発話した場合に、第２端末５に「帰りにいつもの前のやつ買ってきて」という文字列が表示される場合を考える。この場合、前述したように、第２端末５の利用者は、第１端末２の利用者が意図しない全く別のものを買ってきてしまうことにもなりかねない。本実施形態においては、図１１に示したように、第１端末２の利用者が「帰りにいつものマヨネーズ買ってきて」と発話した場合に、第２端末５に「帰りに」「いつもの」「買ってきて」という文字列が表示される。これにより第２端末５の利用者は、第１端末２の利用者が自分に買い物を依頼しているという意図を正確に把握したうえで、例えば電話を折り返したりチャットアプリを使用したりするなどして、第１端末２の利用者にいつもの何を買ってきてほしいのかを聞き返すことが考えられる。このように、留守番電話サービスの特性を鑑みると、音声認識信頼度が高い文全体を表示するよりも、音声認識信頼度が高い単語のみを選択して表示したほうが、むしろ発話者の意図が受け手に誤解なく伝わる場合が多い。

また、第２端末５は、認識文字列における特定の単語の出現回数を認識文字列における全ての単語の出現回数の和で除した値が大きいほど、特定の単語を表示用単語として抽出しやすくする。第２端末５は、出現回数の多い単語を表示しやすくし、出現回数がより少ない単語を表示しにくくするので、第２端末５の利用者は、認識文字列中で重要な単語から音声メッセージの内容を理解しやすくなる。

また、第２端末５は、音声認識処理によって現在までに生成された認識文字列の総数を特定の単語を含む認識文字列の数で除した値が小さいほど、特定の単語を表示用単語として抽出しにくくする。第２端末５は、ある認識文字列中に出現回数が多い単語であっても、一般的な留守番電話メッセージに頻出する「わたくし」、「失礼」、「します」等の単語を表示しにくくする。また、第２端末５が特定の会社内での通話に多用される場合、第２端末５は、留守番電話メッセージに頻出するその会社の会社名等の単語を表示しにくくする。このため、音声認識処理によって生成された認識文字列から抽出された単語を読んだ利用者は、より重要な単語から音声メッセージの内容を理解しやすくなる。

また、第２端末５は、第２抽出処理及び第３抽出処理のいずれかで抽出された単語を抽出し、第２抽出処理及び第３抽出処理のいずれでも抽出されない単語を抽出しない。特に、第３抽出処理の重要度としてｉｄｆ値を用いると、多くの留守番電話メッセージに使用されている単語の重要度が低くなるため、「わたくし」、「失礼」、「します」などの単語に加えて、「折り返し」、「電話」等の主要単語の重要度も低くなることがある。そこで、第２端末５は、主要単語と一致する単語を第２抽出処理によって抽出することにより、留守番電話サービスを利用するときに使用されるキーワードであると推定される単語を確実に利用者に表示することができる。

また、第２端末５は、音声情報における、第１抽出処理で抽出されなかった単語に関連付けられた開始時点を取得し、開始時点に応じた音声再生時点から音声メッセージを再生する。第２端末５は、単語信頼度が第１閾値未満の単語に応じた音声再生時点から音声メッセージを再生するので、第２端末５の利用者は、単語信頼度の低い単語の内容を音声メッセージから把握することができる。

また、第２端末５は、表示用文字列を表示部５３に表示した後に、入力部５２からの入力に応じて認識文字列を表示部５３に表示する。第２端末５は、入力に応じて単語信頼度が第１閾値未満の単語を含む認識文字列を表示するので、利用者は、必要に応じて単語信頼度が第１閾値未満の単語を用いて音声メッセージの内容を推測することができる。

なお、抽出部５７５は、Ｓ５６の処理を実行せず、Ｓ５４で主要単語と一致すると判定された単語を表示用単語として抽出し、主要単語と一致しないと判定された単語を表示用単語として抽出せずに処理をＳ５１に進めてもよい。第２端末５は、予め記憶された単語と一致しない単語を表示しないため、想定外の単語が表示されることにより利用者が音声メッセージの内容を誤解することを防止できる。

また、抽出部５７５は、Ｓ５６でｔｆ値及びｉｄｆ値からｔｆ−ｉｄｆ値を算出したが、音声認識サーバ４がＳ２３の重要度の算出においてｔｆ−ｉｄｆ値を算出し、算出したｔｆ−ｉｄｆ値を生成情報に含めてＳ２４で第２端末５に送信してもよい。この場合、第２端末５の抽出部５７５は、受信した生成情報に含まれるｔｆ−ｉｄｆ値を用いてＳ５６の処理を実行する。また、第２端末５は、ｔｆ値、ｉｄｆ値及び／又はｔｆ−ｉｄｆ値を音声認識サーバ４から受信する代わりに、Ｓ２５で受信した複数の単語を用いてこれらの値を算出してもよい。

また、ｉｄｆ値の算出に用いる、現在までに生成された認識文字列の総数Ｓａは、第２端末５宛の音声情報から生成された認識文字列の総数でも、第１端末２から入力された音声情報から生成された認識文字列の総数でもよい。

また、ｉｄｆ値の算出に用いる、現在までに生成された認識文字列は、音声認識サーバ４が記憶する認識文字列であっても、第２端末５が記憶する認識文字列であってもよい。

また、文字列生成部５７６は、０９０１２３４５６７８等の電話番号、１月２日等の日付、３時４分等の時刻等、複数の単語の組み合わせで構成される文字列を表示用文字列として生成してもよい。例えば、文字列生成部５７６は、Ｓ７１の第１文字列生成処理において、単語信頼度は第１閾値以上だが表示用単語として抽出されなかった複数の連続する単語から文字列を生成する。連続するとは、ある単語の終了時点と次に続く単語の開始時点とが一致することをいう。次に、文字列生成部５７６は、生成された文字列が所定の条件を満たすか否かを判定し、条件を満たすとき、その文字列を表示用文字列として抽出する。

所定の条件は、例えば、所定の桁数の数字で文字列が構成されることであり、所定の桁数が１０桁又は１１桁であれば、文字列生成部５７６は、電話番号を表示用文字列として生成することができる。所定の条件は、例えば、１桁又は２桁の数字と「時」又は「分」という単語とで文字列が構成されることであり、この場合、文字列生成部５７６は、時刻の具体的な値を表示用文字列として生成することができる。

また、表示制御部５７７は、Ｓ７２で同一の表示用文字列が複数個存在するとき、各表示用文字列に含まれる単語に関連する開始時点が早い順に表示用文字列を並べて表示してもよい。この場合、同一の表示用文字列が複数回表示されることとなる。また、表示制御部５７７は、同一の表示用文字列が複数個存在するとき、一部の表示用文字列を表示しなくてもよい。例えば、表示制御部５７７は、最後に現れる表示用文字列のみを表示し、他の表示用文字列を表示しなくてもよい。同一の表示用文字列のうち一部の表示用文字列を表示しないことにより、利用者は、特に長い音声メッセージの場合に、その概要をより速く把握することができる。

また、表示制御部５７７は、Ｓ７２で同一の表示用文字列が複数個存在するとき、同一の表示用文字列が存在する個数に応じて表示用文字列の表示形式を変更してもよい。例えば、表示制御部５７７は、個数の多い表示用文字列を太字、下線等により強調表示してもよい。

また、表示制御部５７７は、Ｓ７３の処理に代えて、Ｓ７２で表示用文字列を表示すると共に利用者の指示が入力部５２に入力されることの検出を開始し、利用者の指示を検出すると、音声情報から音声メッセージを再生して音声出力部５５から出力してもよい。利用者は、単語信頼度が第１閾値未満の単語が表示されないことにより音声メッセージの内容を理解できないときでも、容易に音声メッセージを再生してその内容を把握することができる。

また、表示制御部５７７は、Ｓ８１〜Ｓ８２で認識文字列を表示することに代えて、Ｓ５３で単語信頼度が第１閾値未満と判定された単語、又は、Ｓ５７で表示用単語として抽出されなかった単語を表示用文字列として抽出し、表示部５３に表示してもよい。

また、表示制御部５７７は、Ｓ８５の判定に代えて、利用者により指定された単語の単語信頼度が第１閾値以上か否かを判定結果テーブルを参照して判定し、第１閾値以上であればＳ８３に処理を進め、第１閾値未満であればＳ８６に処理を進めてもよい。この際、表示制御部５７７は、第１閾値に代えて第１閾値より高い値の閾値を用いることにより、単語信頼度が第１閾値以上の単語についても音声メッセージの再生を可能にしてもよい。

また、Ｓ２０〜Ｓ２５の処理に代えて、第２端末５の処理部５７が音声認識部４３４及び重要度算出部４３５を有し、これらの各部の処理を実行することにより音声認識処理を実行してもよい。この場合、留守電処理部５７１は、通信部５１を介さずに音声認識部４３４から音声情報を取得することにより、音声情報取得処理を実行する。

＜第１変形例＞
図１３は、第１変形例に係る通信システム１の動作シーケンスの一例を示す図である。

第１変形例に係る通信システム１の動作シーケンスは、Ｓ１４〜Ｓ２１の処理に代えてＳ１１１〜Ｓ１１２の処理を有し、Ｓ２４〜Ｓ２５の処理に代えてＳ１１３〜Ｓ１２０の処理を有することが、図７に示す実施形態に係る動作シーケンスと相違する。Ｓ１１１〜Ｓ１２０の処理以外の第１変形例に係る動作シーケンスにおける処理内容は、同一符号が付された実施形態に係る動作シーケンスにおける処理内容と同一であるため、ここでは詳細な説明を省略する。

Ｓ１１〜Ｓ１３の処理の後、留守番電話サーバ３は、Ｓ１３で記憶した音声情報及び音声情報識別子を音声認識サーバ４に送信する（Ｓ１１１）。

次に、音声認識サーバ４の通信制御部４３１は、留守番電話サーバ３からサーバ通信部４１を介して音声情報及び音声情報識別子を受信する（Ｓ１１２）。次に、音声認識部４３４は、音声情報に対して音声認識処理を実行し、複数の単語等を生成する（Ｓ２２）。次に、重要度算出部４３５は、音声認識部４３４が生成した複数の単語について重要度を算出し、重要度と単語とを関連付けてサーバ記憶部４２に記憶する（Ｓ２３）。次に、通信制御部４３１は、音声認識部４３４が生成した情報及び重要度算出部４３５が算出した重要度を含む生成情報と、音声情報識別子とを、サーバ通信部４１を介して留守番電話サーバ３に送信する（Ｓ１１３）。

次に、留守番電話サーバ３は、音声認識サーバ４から生成情報と音声情報識別子とを受信し（Ｓ１１４）、音声情報識別子を含む音声情報の受信通知をＳ１３で記憶した宛先である第２端末５に送信する（Ｓ１１５）。

次に、第２端末５の留守電処理部５７１は、留守番電話サーバ３から通信部５１を介して音声情報の受信通知を受信する（Ｓ１１６）。次に、留守電処理部５７１は、音声情報識別子を含む生成情報取得要求を、通信部５１を介して留守番電話サーバ３に送信する（Ｓ１１７）。

次に、留守番電話サーバ３は、生成情報取得要求を受信すると（Ｓ１１８）、記憶する生成情報及び音声情報の中から音声情報識別子に対応する生成情報及び音声情報を選択し、第２端末５に送信する（Ｓ１１９）。

次に、第２端末５の変換処理部５７２は、音声認識サーバ４から通信部５１を介して生成情報及び音声情報を受信することにより、生成情報及び音声情報を取得する（Ｓ１２０）。変換処理部５７２は、取得した生成情報から変換結果テーブルを生成し、変換結果テーブル及び音声情報を記憶部５６に記憶する。

次に、第２端末５は抽出処理（Ｓ２７）及び表示再生処理（Ｓ２８）を実行し、一連のシーケンスは終了する。

第１変形例に係る第２端末５は、受信した音声情報を音声認識サーバ４に送信する必要がないため、データ送信量を削減することができる。

＜第２変形例＞
図１４は、第２変形例に係る音声認識サーバ１４の概略構成の一例を示す図である。

第２変形例において、音声認識サーバ１４は、通信装置の一例である。第２変形例に係る音声認識サーバ１４は、認識文字列取得部４３６、信頼度取得部４３７、抽出部４３８及び文字列生成部４３９を有することと、サーバ記憶部４２に主要単語を有することが、図４に示す第１実施形態に係る音声認識サーバ４と相違する。それ以外の第２変形例に係る音声認識サーバ１４の構成は、同一符号が付された第１実施形態に係る音声認識サーバ４の構成と同一である。

図１５は、第２変形例に係る第２端末１５の概略構成の一例を示す図である。

第２変形例に係る第２端末１５は、認識文字列取得部５７３、信頼度取得部５７４、抽出部５７５及び文字列生成部５７６を有さないことが、図５に示す第１実施形態に係る第２端末５と相違する。また、第２変形例に係る第２端末１５は、記憶部５６に図６に示す変換結果テーブル及び主要単語を有さないことが、図５に示す第１実施形態に係る第２端末５と相違する。それ以外の第２変形例に係る第２端末１５の構成は、同一符号が付された第１実施形態に係る第２端末５の構成と同一である。

図１６は、第２変形例に係る通信システム１１の動作シーケンスの一例を示す図である。

第２変形例に係る通信システム１１の動作シーケンスは、Ｓ２４〜Ｓ２７に代えてＳ２１１〜Ｓ２１５を有し、第２端末５がＳ２８の表示再生処理に含まれるＳ７１の第１文字列生成処理を実行しないことが、図７に示す実施形態に係る動作シーケンスと相違する。これらの処理以外の第２変形例に係る動作シーケンスにおける処理内容は、同一符号が付された実施形態に係る動作シーケンスにおける処理内容と同一であるため、ここでは詳細な説明を省略する。

Ｓ１１〜Ｓ２３の処理の後、認識文字列取得部４３６は、サーバ記憶部４２から認識文字列を構成する複数の単語を取得する。また、信頼度取得部５７４は、単語信頼度等を複数の単語のそれぞれと関連付けて取得する（Ｓ２１１）。次に、抽出部４３８は、取得した複数の単語及び単語信頼度等に基づいて表示用単語を抽出する抽出処理を実行する（Ｓ２１２）。Ｓ２１２の抽出処理の内容は、実行の主体が音声認識サーバ４である点を除いて、実施形態における第２端末５のＳ２７の抽出処理と同一であるため、詳細な説明は省略する。

次に、文字列生成部４３９は、抽出処理により抽出した表示用単語を含む表示用文字列を生成する第１文字列生成処理を実行する（Ｓ２１３）。Ｓ２１３の第１文字列生成処理の内容は、実行の主体が音声認識サーバ４である点を除いて、実施形態における第２端末５のＳ７１の第１文字列生成処理と同一であるため、詳細な説明は省略する。

次に、通信制御部４３１は、文字列生成部４３９が生成した表示用文字列をサーバ通信部４１に出力する第１出力処理を実行し、表示用文字列をサーバ通信部４１を介して第２端末５に送信する（Ｓ２１３）。

次に、第２端末５の表示制御部５７７は、音声認識サーバ４から通信部５１を介して表示用文字列を受信する（Ｓ２１４）。

次に、表示制御部５７７は、受信した表示用文字列を表示し（Ｓ７２）、再生処理を実行する（Ｓ７３）。以上により、一連のシーケンスは終了する。

第２変形例に係る音声認識サーバ４は、抽出処理を実行し、抽出した表示用単語を第２端末５に送信するため、第２端末５は、抽出処理の実行の負荷を軽減することができる。

＜第３変形例＞
図１７は、第３変形例に係る表示再生処理の一例を示す図である。

第３変形例に係る表示再生処理のフローチャートは、図１０のＳ７３及び図１２に示す再生処理のＳ８１〜Ｓ８５に代えてＳ９１〜Ｓ９５の処理を有する点が、図１０及び図１２に示す表示再生処理のフローチャートと異なる。Ｓ９１〜Ｓ９５の処理以外の第３変形例に係るフローチャートにおける処理内容は、同一符号が付された実施形態に係るフローチャートにおける処理内容と同一であるため、ここでは詳細な説明を省略する。

最初に、文字列生成部５７６は、第１文字列生成処理を実行する（Ｓ７１）。次に、表示制御部５７７は、表示用文字列を表示部５３に出力する第１出力処理を実行し（Ｓ７２）、表示用文字列を表示部５３に表示させる。

次に、表示制御部５７７は、利用者による指示が入力部５２から入力されるまで待機する（Ｓ９１）。利用者による指示が入力部５２から入力されると、表示制御部５７７は、入力内容を判定する（Ｓ９２）。入力内容が処理終了のとき、表示再生処理は終了する。

入力内容が表示切換のとき、表示制御部５７７は、Ｓ７２で表示された表示用文字列がＳ７１で生成された表示用文字列、即ち、抽出処理により抽出した表示用単語を含む表示用文字列であるか否かを判定する（Ｓ９３）。Ｓ７２で表示された表示用文字列がＳ７１で生成された表示用文字列でないとき（Ｓ９３−Ｎ）、表示制御部５７７は、処理をＳ７１に進める。Ｓ７２で表示された表示用文字列がＳ７１で生成された表示用文字列であるとき（Ｓ９３−Ｙ）、文字列生成部５７６は、認識文字列取得部５７３が取得した認識文字列によって構成される表示用文字列を生成する第２文字列生成処理を実行する（Ｓ９４）。

次に、表示制御部５７７は、表示用文字列に含まれる単語のうち単語信頼度が第１閾値以上である単語の表示態様と、単語信頼度が第１閾値未満である単語の表示態様とが異なる様に、表示用文字列を表示部５３に出力する第２出力処理を実行する（Ｓ９５）。例えば、表示制御部５７７は、単語信頼度が第１閾値以上である単語に下線を付さず、第１閾値未満である単語に下線を付したデータを表示部５３に出力する。第２出力処理を実行することによって、表示用文字列は、単語信頼度が第１閾値以上である単語の表示態様と、単語信頼度が第１閾値未満である単語の表示態様とが異なる様に、表示部５３に表示される。次に、文字列生成部５７６は、処理をＳ９１に進める。

図１８は、第２出力処理によって表示部５３に表示用文字列を表示した一例を示す図である。

下線表示された「前」「の」「やつ」は、単語信頼度が第１閾値未満の単語であり、第１出力処理によって表示部５３に表示されていなかった単語である。単語信頼度が第１閾値以上の単語の表示態様と、単語信頼度が第１閾値未満の単語の表示態様とが異なることにより、認識文字列によって構成される表示用文字列を読んだ利用者は、第１出力処理によって表示されていなかった単語を容易に識別することができる。

Ｓ９２における入力内容が単語指定の場合、表示制御部５７７は、開始時点取得処理を実行し（Ｓ８６）、指定された単語に関連付けられた開始時点を取得する。次に、表示制御部５７７は、音声再生処理を実行し（Ｓ８７）、処理をＳ９１に進める。

第３変形例に係る第２端末５は、認識文字列を表示する際に、単語信頼度が第１閾値以上か否かに応じて異なる表示形態で単語を表示するため、第１出力処理によって表示されていなかった単語を容易に識別することができる。

なお、上述した実施形態及び各変形例において、抽出処理を実行する装置は、音声認識サーバ４以外のサーバであっても、第１端末２であってもよい。

また、音声認識サーバ４は、音声認識処理において認識文字列全体の信頼度である認識文字列信頼度をさらに算出して第２端末５に送信し、第２端末５の表示制御部５７７は、受信した認識文字列信頼度の値に応じて表示用文字列の表示を制御してもよい。例えば、表示制御部５７７は、図１０及び図１７のＳ７１の前に認識文字列信頼度の値が所定の第３閾値以上か否かを判定し、第３閾値以上でないときは音声認識に失敗した旨を表示して、表示再生処理を終了してもよい。

また、認識文字列は、一つの文から構成されても、複数の文から構成されてもよい。

また、文字列生成部４３９は、抽出処理により抽出した表示用単語を組み合わせることなく、一つの表示用単語から一つの表示用文字列を生成してもよい。この際、第２端末５は実施形態と同様に文字列生成部５７６を有し、文字列生成部５７６は、表示用単語に代えてＳ２１５で受信した表示用文字列を使用してＳ７１の第１文字列生成処理を実行してもよい。これにより、音声認識サーバの処理を増やすことなく、複数の表示用単語を組み合わせた文字列を第２端末５の表示部５３に表示することができる。

当業者は、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１、１１通信システム
４、１４音声認識サーバ（通信装置）
５、１５第２端末（表示端末）
４１サーバ通信部
５３表示部
４３４音声認識部
４３６、５７３認識文字列取得部
４３７、５７４信頼度取得部
４３８、５７５抽出部
４３９、５７６文字列生成部
５７７表示制御部

Claims

留守番電話サービスへ入力された音声メッセージを示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得処理と、
前記複数の単語のそれぞれを生成したときの前記音声認識処理の単語信頼度を、前記複数の単語のそれぞれと関連付けて取得する信頼度取得処理と、
前記複数の単語のそれぞれに関連付けられた前記単語信頼度に基づいて、前記認識文字列から単語を抽出する抽出処理と、
前記抽出処理によって抽出された単語のみを含む表示用文字列を生成する第１文字列生成処理と、
前記表示用文字列を出力する第１出力処理と、を含み、
前記抽出処理は、
前記単語信頼度が所定の第１閾値以上である前記単語を抽出し、且つ、前記単語信頼度が前記第１閾値未満である単語を抽出しない第１抽出処理と、
前記第１抽出処理によって抽出された単語から、前記留守番電話サービスを利用するときに使用されるキーワードであると推定される主要単語と一致する単語を抽出し、且つ、前記主要単語と一致しない単語を抽出しない第２抽出処理と、を含む、
処理を演算装置に実行させる、ことを特徴とする音声認識結果の出力プログラム。
前記抽出処理は、
前記第１抽出処理によって抽出された単語の重要度を算出する重要度算出処理と、
前記重要度算出処理によって算出された重要度が所定の第２閾値以上である単語を抽出し、且つ、前記重要度が前記第２閾値未満である単語を抽出しない第３抽出処理と、をさらに含み、且つ、
前記第２抽出処理及び前記第３抽出処理のいずれかで抽出された単語を抽出し、且つ、前記第２抽出処理及び前記第３抽出処理のいずれでも抽出されない単語を抽出しない、請求項１に記載の音声認識結果の出力プログラム。
前記重要度算出処理は、前記重要度をｉｄｆ（Inverse Document Frequency）値に基づいて算出する、請求項２に記載の音声認識結果の出力プログラム。
利用者からの入力に応じて、前記認識文字列によって構成される前記表示用文字列を生成する第２文字列生成処理と、
前記単語信頼度が前記第１閾値以上である前記単語の表示形態と、前記単語信頼度が前記第１閾値未満である単語の表示形態とが異なる様に、前記認識文字列によって構成される前記表示用文字列を出力する第２出力処理と、
をさらに演算装置に実行させる、請求項１〜３のいずれか一項に記載の音声認識結果の出力プログラム。
通信部と、
留守番電話サービスへ入力された音声メッセージを示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得部と、
前記複数の単語のそれぞれを生成したときの前記音声認識処理の単語信頼度を、前記複数の単語のそれぞれと関連付けて取得する信頼度取得部と、
前記複数の単語のそれぞれに関連付けられた前記単語信頼度に基づいて、前記認識文字列から単語を抽出する抽出部と、
前記抽出部によって抽出された単語のみを含む表示用文字列を生成する文字列生成部と、
前記表示用文字列を前記通信部に出力する通信制御部と、を有し、
前記抽出部は、
前記単語信頼度が所定の第１閾値以上である前記単語を抽出し、且つ、前記単語信頼度が前記第１閾値未満である単語を抽出せず、
前記抽出した第１閾値以上の単語から、前記留守番電話サービスを利用するときに使用されるキーワードであると推定される主要単語と一致する単語を抽出し、且つ、前記主要単語と一致しない単語を抽出しない、
ことを特徴とする通信装置。
通信装置及び表示端末を有する音声認識結果の表示システムであって、
前記通信装置は、
サーバ通信部と、
留守番電話サービスへ入力された音声メッセージを示す音声情報から音声認識処理によって生成された複数の単語から構成される文字列である認識文字列を取得する認識文字列取得部と、
前記複数の単語のそれぞれを生成したときの前記音声認識処理の単語信頼度を、前記複数の単語のそれぞれと関連付けて取得する信頼度取得部と、
前記複数の単語のそれぞれに関連付けられた前記単語信頼度に基づいて、前記認識文字列から単語を抽出する抽出部と、
前記抽出部によって抽出された単語のみを含む表示用文字列を生成する文字列生成部と、
前記表示用文字列を前記サーバ通信部に出力する通信制御部と、を有し、
前記表示端末は、
通信部と、
表示部と、
前記通信部を介して前記表示用文字列を受信し、受信した前記表示用文字列を前記表示部に表示する表示制御部と、を有し、
前記通信装置の前記抽出部は、
前記単語信頼度が所定の第１閾値以上である前記単語を抽出し、且つ、前記単語信頼度が前記第１閾値未満である単語を抽出せず、
前記抽出した第１閾値以上の単語から、前記留守番電話サービスを利用するときに使用されるキーワードであると推定される主要単語と一致する単語を抽出し、且つ、前記主要単語と一致しない単語を抽出しない、
ことを特徴とする音声認識結果の表示システム。