JP2018045193A

JP2018045193A - 通信端末、音声変換方法、及びプログラム

Info

Publication number: JP2018045193A
Application number: JP2016181923A
Authority: JP
Inventors: 章敬中島; Akinori Nakajima; 藤田　健; Takeshi Fujita; 健藤田; 厚小久保; Atsushi Kokubo; 未友前田; Miyu Maeda
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2018-03-22
Anticipated expiration: 2036-09-16
Also published as: JP6756211B2

Abstract

【課題】音声変換サービスにおいて、より長い音声の音声データを変換することで、より信頼度の高い結果が得られる傾向にある。しかしながら、音声変換サービスに、より長い音声の音声データの変換を要求することで、変換要求から結果の出力までのタイムラグが大きくなり、リアルタイム性が失われる。【解決手段】端末１０の送受信部１１は、音声入力部１３によって生成される音声データのうち、第１の長さの音声の音声データを、音声変換サービス３０へ送信する。端末１０の送受信部１１は、音声変換サービス３０によって音声データから変換されたテキストデータ、及び変換の信頼度を示す情報を受信する。端末１０の送受信部１１は、受信される信頼度に応じて、第２の長さの音声の音声データを、音声変換サービス３０へ送信する。【選択図】図８

Description

本発明は、通信端末、音声変換方法、及びプログラムに関する。

従来、データやアプリケーション等を、通信ネットワークを介してクライアントに提供するクラウドサービスが知られている。クラウドサービスには、例えば、音声を認識し、分析して、テキスト化するものがある。クライアントが、例えば、会議の音声データを、このクラウドサービスへ送信して変換要求すると、クラウドサービスは、会議の音声データからテキストへ変換してクライアントへ返す。クライアントは、受信したテキストを会議の議事録等として利用することができる。

特許文献１には、音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付手段と、第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、テキストデータの編集を受け付ける第２の受付手段と、を備える音声書起支援システムが開示されている。また、特許文献１には、音声認識サーバは、息継ぎ時の発話が途切れている箇所を、発話区間として検出し、検出された発話区間毎に、音声認識の処理を実行してテキストデータを生成することが開示されている。

音声変換サービスにおいて、より長い音声の音声データを変換することで、より信頼度の高い結果が得られる傾向にある。しかしながら、音声変換サービスに、より長い音声の音声データの変換を要求することで、変換要求と結果の出力までのタイムラグが大きくなり、リアルタイム性が失われるという課題が生じる。

請求項１に係る発明の通信端末は、入力された音声から、音声データを生成する生成手段と、前記生成手段によって生成される音声データのうち、第１の長さの音声の音声データを、音声変換システムへ送信する送信手段と、前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第１の長さとは異なる第２の長さの音声の音声データを、前記音声変換システムへ送信する。

以上説明したように本発明によれば、音声認識サービスにおいて、信頼度を維持しつつ、リアルタイム性の低下を防ぐことが可能になるという効果を奏する。

本発明の一実施形態に係る通信システムの概略図である。一実施形態に係る端末のハードウェア構成図である。一実施形態に係る音声変換サービスのハードウェア構成図である。一実施形態に係る端末、及び音声変換サービスの各機能ブロック図である。端末が管理する各管理テーブルを示す概念図である。図６の（Ａ）は、端末を用いた会議における準備段階の処理の一例を示すシーケンス図である。図６の（Ｂ）は、端末において音声データを生成する処理の一例を示すシーケンス図である。図７の（Ａ）は、音声をテキストに変換する処理のうち端末が実行する処理一例を示すフロー図である。図７の（Ｂ）は、音声をテキストに変換する処理のうち、端末及び音声変換サービスに関わる処理の一例を示すシーケンス図である。ディスプレイの表示例である。

以下、本発明の実施形態について説明する。

＜＜通信システムの概略＞＞
図１は、本発明の一実施形態に係る通信システムの概略図である。図１に示されているように、通信システム１は、通信端末１０、及び音声変換サービス３０によって構築されている。以下、通信端末１０を単に端末１０と表す。端末１０、及び音声変換サービス３０は、通信ネットワーク２を介して接続されている。通信ネットワーク２の一部、又は全部は、例えば、インターネット、LAN(Local Area Network)、又は専用線によって構築されていても良い。また、通信ネットワーク２の一部、又は全部は、有線の通信網によって構築されていても、無線の通信網によって構築されていても良い。

音声変換サービス３０は、クライアントとしての端末１０による要求に応じて、音声認識の技術を利用して、音声データをテキストに変換するサーバである。音声変換サービス３０は、クラウド上の外部サービスであっても、ASP(Application Service Provider)であっても、WEBサービスであっても良く、特に限定されない。

端末１０は、音声変換サービス３０を利用するクライアントである。端末１０は、入力される音声から音声データを生成し、生成された音声データを音声変換サービス３０へ送信する。端末１０は、音声変換サービス３０によって音声データから変換されたテキストデータを受信して出力する。本実施形態において、端末１０は、インタラクティブホワイトボード(IWB: Interactive Whiteboard)である例を示す。しかしながら、端末１０は、これに限定されず、例えば、タブレット、スマートフォン、ＰＣ（personal computer）等であっても良い。

図１では、通信システム１において、音声変換サービス３０が一つの装置である例を示しているが、音声変換サービス３０は、複数の装置により構築されていても良い。また、通信システム１において、音声変換サービス３０による音声変換結果を利用する、例えば、人工知能(AI: artificial intelligence)サービス等の他のサービスが、通信ネットワーク２に接続されていても良い。また、通信システム１において、端末１０は１台ではなく複数であっても良い。この場合、各端末１０は、それぞれ同種であっても異種であっても良い。また、複数の端末１０の一台、又はそれぞれが音声変換サービスを含んでいても良い。

＜＜ハードウェア構成＞＞
次に、通信システム１を構成する各装置のハードウェア構成を説明する。
まず、図２を用いて、一実施形態に係る端末のハードウェア構成を説明する。なお、図２は、一実施形態に係る端末のハードウェア構成図である。

図２に示されているように、端末１０は、端末１０全体の動作を制御するＣＰＵ(Central Processing Unit)２０１、ＩＰＬ等のＣＰＵ２０１の駆動に用いられるプログラムを記憶したＲＯＭ２０２、ＣＰＵ２０１のワークエリアとして使用されるＲＡＭ２０３、端末用のプログラム等の各種データを記憶するＳＳＤ２０４、通信ネットワーク２との通信を制御するネットワークＩ／Ｆ２０５、及び、ＵＳＢメモリ５との通信を制御する外部記憶コントローラ２０６を備えている。さらに、端末１０は、ＣＰＵ２０１の制御に従って被写体を撮像するカメラ２０７と、このカメラ２０７の駆動を制御する撮像素子Ｉ／Ｆ２０８と、ノートＰＣ６のディスプレイに対して映像情報を静止画又は動画として表示させるキャプチャデバイス２１１、グラフィクスを専門に扱うＧＰＵ(Graphics Processing Unit)２１２、及び、ＧＰＵからの出力画像をディスプレイ３へ出力するために画面表示の制御、及び管理を行うディスプレイコントローラ２１３を備えている。

さらに、端末１０は、接触センサ２１５の処理を制御するセンサコントローラ２１４、ディスプレイ３上に電子ペン４やユーザの手Ｈ等が接触したことを検知する接触センサ２１５を備えている。一実施形態における、接触センサ２１５は、赤外線遮断方式による座標の入力、及び座標の検出を行う。この座標の入力、及び座標を検出する方法は、ディスプレイ３の上側両端部に設置された２つ受発光装置が、ディスプレイ３に平行して複数の赤外線を放射し、ディスプレイ３の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ２１５は、物体によって遮断された２つの受発光装置が放射した赤外線のＩＤ(Identification)をセンサコントローラ２１４に出力し、センサコントローラ２１４が、物体の接触位置である座標位置を特定する。なお、以下に示す全ての各ＩＤは、識別情報の一例である。

接触センサ２１５の検知方式は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式、対向する２の抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式であっても良い。また、接触センサ２１５は、カメラを用いて、接触を判断し、座標位置を特定するものであっても良い。

また、端末１０は、電子ペンコントローラ２１６を備えている。この電子ペンコントローラ２１６は、電子ペン４と通信することで、ディスプレイ３へのペン先のタッチやペン尻のタッチの有無を判断する。なお、電子ペンコントローラ２１６が、電子ペン４のペン先、及びペン尻だけでなく、電子ペン４のユーザが握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。

さらに、端末１０は、ＣＰＵ１０１の制御に従って、外部のマイク２２２、及び外部のスピーカ２２３との間で音声信号の入出力を処理する音声入出力Ｉ／Ｆ２２４と、ユーザの操作を受け付ける操作ボタン２２５と、端末１０の電源のＯＮ／ＯＦＦを切り換えるための電源スイッチ２２６と、を備えている。なお、マイク２２２及びスピーカ２２３のいずれかが、端末１０に内蔵されていても良い。

さらに、端末１０は、上記各構成要素間を相互に電気的に接続するためのアドレスバスやデータバス等のバスライン２３０を備えている。

なお、端末用のプログラムは、ＣＤ−ＲＯＭ等のコンピュータで読み取り可能な記録媒体や、ネットワーク上のサーバに記録して流通やダウンロードさせるようにしてもよい。

図３は、一実施形態に係る音声変換サービス３０のハードウェア構成図である。音声変換サービス３０は、音声変換サービス３０全体の動作を制御するＣＰＵ５０１、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶したＲＯＭ５０２、ＣＰＵ５０１のワークエリアとして使用されるＲＡＭ５０３、音声変換サービス３０用のプログラム等の各種データを記憶するＨＤ５０４、ＣＰＵ５０１の制御にしたがってＨＤ５０４に対する各種データの読み出し又は書き込みを制御するＨＤＤ(Hard Disk Drive)５０５、フラッシュメモリ等の記録メディア５０６に対するデータの読み出し又は書き込み（記憶）を制御するメディアドライブ５０７、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示するディスプレイ５０８、通信ネットワーク２を利用してデータ通信するためのネットワークＩ／Ｆ５０９、文字、数値、各種指示などの入力のための複数のキーを備えたキーボード５１１、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行うマウス５１２、着脱可能な記録媒体の一例としてのＣＤ−ＲＯＭ(Compact Disc Read Only Memory)５１３に対する各種データの読み出し又は書き込みを制御するＣＤ−ＲＯＭドライブ５１４、及び、上記各構成要素を図３に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン５１０を備えている。

なお、音声変換サービス３０が複数の装置、又はシステムによって構築される場合、複数の装置、又はシステムは、それぞれ図３のハードウェア構成を有する。

＜＜機能構成＞＞
次に、本実施形態の機能構成について説明する。図４は、一実施形態に係る通信システム１を構成する端末１０、及び音声変換サービス３０の機能ブロック図である。図４では、端末１０、及び音声変換サービス３０が、通信ネットワーク２を介してデータ通信することができるように接続されている。

＜端末の機能構成＞
端末１０は、送受信部１１、操作入力受付部１２、音声入力部１３、音声処理部１４、表示制御部１５、及び記憶・読出部１９を有している。これら各部は、図２に示されている各構成要素のいずれかが、ＲＯＭ２０２からＲＡＭ２０３上に展開されたプログラムに従ったＣＰＵ２０１からの命令によって動作することで実現される機能である。また、端末１０は、図２に示されているＲＯＭ２０２、ＲＡＭ２０３、ＳＳＤ２０４によって構築される記憶部１０００を有している。

（分割管理テーブル）
図５の（Ａ）は、分割管理テーブルを示す概念図である。記憶部１０００には、分割管理テーブルによって分割管理ＤＢ１００１が構築される。分割管理テーブルでは、言語を示す情報に関連付けて、その言語の音声から音声データを生成するときに、音声を何秒ごとに分割するかを示す分割時間を示す情報が管理されている。例えば、図５（Ａ）の分割管理テーブルによると、英語の音声から音声データを生成するときに、２秒ごとの音声の音声データを生成することを示す。なお、分割した音声から生成される音声データを、以下、分割音声データと表す。

英語は、日本語と比較して同音異義語が少ないため、テキスト変換するときに、短い時間の音声データであっても信頼度の高い結果が得られやすい。このため、分割管理テーブルでは、分割音声データがテキスト変換に用いられることを考慮して、英語の分割時間が、日本語の分割時間よりも短く設定されている。但し、図５の（Ａ）の分割時間は一例であって、言語ごとに任意に設定される。また、図５の（Ａ）に記載の言語は一例であって、これに限定されない。

（音声管理部）
図５の（Ｂ）は、音声管理部を示す概念図である。記憶部１０００には、音声管理部１００２が構築される。音声管理部１００２の所定の記憶領域には、分割音声データがネクストポインタに関連付けられて管理されている。なお、図５の（Ｂ）には、説明のため、分割音声データのフィールドにはテキストが記録されているが、実際はテキストに対応する音声のデータが記録されている。ネクストポインタは、次に記録される分割音声データが格納される記憶領域を示す。なお、本実施形態では、音声は入力順に分割されて、記憶領域の"S1, S2, S3,…"で示される場所へ順に記録される。これにより、図５の（Ｂ）の音声管理部において、先に入力された音声に対応する音声データに対し、後に入力される音声データよりも小さい数値を含むネクストポインタが割り当てられている。

（端末の各機能構成）
次に、図２及び図４を用いて、端末１０の各機能構成について詳細に説明する。なお、以下では、端末１０の各機能構成を説明するにあたって、図２に示されている各構成要素のうち、端末１０の各機能構成を実現させるための主な構成要素との関係も説明する。

送受信部１１は、ＣＰＵ１０１からの命令、及びネットワークコントローラ２０５によって実現され、通信ネットワーク２を介して、他の装置又はシステム等と各種情報の送受信を行う。

操作入力受付部１２は、ＣＰＵ１０１からの命令、並びに接触センサ２１５、及び電子ペンコントローラ２１６によって実現され、ユーザによる各種入力を受け付けたり、ユーザによる各種選択を受け付けたりする。

音声入力部１３は、音声入出力Ｉ／Ｆ２２４によって実現され、マイク２２２で集音した音声を、音声データとして端末１０へ入力する。

音声処理部１４は、ＣＰＵ２０１からの命令によって実現され、音声変換サービス３０へ送信する音声の管理等、各種音声に係る処理を実行する。

表示制御部１５は、ＣＰＵ１０１からの命令、及びディスプレイコントローラ２１３によって実現され、ディスプレイ１２０から画像を表示するための制御を行う。

記憶・読出部１９は、ＣＰＵ１０１からの命令によって実現され、記憶部１０００に各種データを記憶したり、記憶部１０００に記憶された各種データを読出したりする処理を行う。

＜音声変換サービスの機能構成＞
音声変換サービス３０は、送受信部３１、変換部３２、及び記憶・読出部３９を有している。これら各部は、図３に示されている各構成要素のいずれかが、ＨＤ５０４からＲＡＭ５０３上に展開された音声変換サービス３０用のプログラムに従ったＣＰＵ５０１からの命令によって動作することで実現される機能である。また、音声変換サービス３０は、ＨＤ５０４により構築される記憶部５０００を有している。

（音声変換サービスの各機能構成）
次に、音声変換サービス３０の各機能構成について詳細に説明する。なお、以下では、音声変換サービス３０の各機能構成を説明するにあたって、図３に示されている各構成要素のうち、音声変換サービス３０の各機能構成を実現させるための主な構成要素との関係も説明する。

送受信部３１は、ＣＰＵ５０１からの命令、及びネットワークＩ／Ｆ５０９によって実現され、通信ネットワーク２を介して他の装置又はシステムと各種情報の送受信を行う。

変換部３２は、ＣＰＵ５０１からの命令によって実現され、端末１０による音声データからテキストへの変換要求に応じて、音声データをテキストに変換する。

記憶・読出部３９は、ＣＰＵ５０１からの命令及びＨＤＤ５０５によって実現され、又はＣＰＵ５０１からの命令によって実現され、記憶部５０００に各種データを記憶したり、記憶部５０００に記憶された各種データを抽出したりする処理を行う。

＜＜実施形態の処理＞＞
続いて、端末１０、及び音声変換サービス３０の処理について説明する。まずは、端末１０を用いた会議における準備段階の処理について説明する。図６の（Ａ）は、端末１０を用いた会議における準備段階の処理の一例を示すシーケンス図である。なお、会議は、音声を用いた任意のコミュニケーションに置き換え可能である。

端末１０の操作入力受付部１２は、ユーザによる入力操作に応じて、会議で用いる言語の指定の入力を受け付ける（ステップＳ２１）。以下、ステップＳ２１で言語として「英語」の指定の入力が受け付けられた場合について説明する。端末１０の記憶・読出部１９は、ステップＳ２１で入力された言語「英語」を検索キーとして、分割管理テーブルを検索し、対応する分割時間「２秒」を読み出す。これにより、音声処理部１４は、入力される音声から分割音声データを生成するときの音声の分割時間を、読み出された「２秒」に設定する（ステップＳ２２）。

続いて、端末１０を用いた会議において、会議の音声から音声データを生成する処理について説明する。図６の（Ｂ）は、端末１０において音声データを生成する処理の一例を示すシーケンス図である。

端末１０の音声入力部１３は、マイク２２２で集音された会議の参加者の発言として、例えば、"Because one can never come to understand the nature of mind and its laws of working by listening to lectures or reading text books alone"という音声の入力を受け付ける（ステップＳ３１）。端末１０の音声入力部１３は、入力された音声が、ステップＳ２２で設定された分割時間「２秒」ごとに分割されたときの最初の音声"Because one can"の分割音声データ、続く「２秒」の音声"never come to understand the"の分割音声データ等を順次、生成する（ステップＳ３２）。音声データの形式は、特に限定されないが、例えば、Windows Media（登録商標又は商標） Video (WMV）である。

端末１０の音声入力部１３は、ステップＳ３２で生成された分割音声データを、ネクストポインタに関連付けたリスト構造により、音声管理部１００２に記憶することにより、分割音声データをバッファリングする（ステップＳ３３）。例えば、音声管理部１００２の記憶領域"S1, S2"に分割音声データ"D1, D2"を記憶させるとき、音声入力部１３は、
*head = *S1
分割音声データS1{
data:分割音声データD1
*next : *S2
}
分割音声データS2{
data:分割音声データD2
*next : null
}
の形式で分割音声データをバッファリングすることができる。この例のリスト構造は、最初のデータを指すネクストポインタ"head"を持つ。最初の分割音声データが、例えば、記憶領域"S1"にあるとき、"head"は"S1"となる。ネクストポインタは次のデータが格納される記憶領域の場所を指し示す。この例で、記憶領域"S1"に格納される最初の音声の分割音声データが持つネクストポインタは"S2"となり、記憶領域Ｓ２に格納される最後の分割音声データが持つネクストポインタは"NULL"となる。上記の例文の音声を記憶させる場合、音声入力部１３は、例えば、ネクストポインタ"head"として"S1"を音声管理部１００２に記録し、音声"Because one can"の分割音声データを、ネクストポインタ"S2"に関連付けて音声管理部１００２の記憶領域"S1"に記録し、続いて、音声"never come to understand the"の分割音声データをネクストポインタ"S3"に関連付けて音声管理部１００２の記憶領域Ｓ２に順に記録する。なお、図５の（Ｂ）は、リスト構造のうち分割音声データ、及びネクストポイントを抽出して、概念的に表したものである。このように、ネクストポインタを用いたリスト構造により分割音声データをバッファリングすることで、各分割音声データについて、次に入力された音声により生成された分割音声データを端末１０において特定可能になる。

ステップＳ３２、及びステップＳ３３の処理は、それぞれ先のステップの処理が完了するのを待つことなく実行される。これにより、ステップＳ３１で音声が入力中であっても、端末１０において、分割音声データの生成、及びバッファリングがリアルタイムに実行される。

続いて、端末１０において集音された音声をテキストに変換する処理について説明する。図７の（Ａ）は、音声をテキストに変換する処理のうち端末１０が実行する処理一例を示すフロー図である。図７の（Ｂ）は、音声をテキストに変換する処理のうち、端末１０及び音声変換サービス３０に関わる処理の一例を示すシーケンス図である。

まず、端末１０の音声処理部１４は、音声管理部１００２において管理されている分割音声データから、変換用の音声データを編集する（ステップＳ４１）。この処理で、音声処理部１４は、音声管理部１００２において管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”が記録された分割音声データを、変換用の音声データとして取得する。なお、本実施形態では、音声を入力順に分割して、記憶領域の"S1, S2, S3,…"で示される場所へ順に記録していくことから、最も小さいネクストポインタが指す音声とは、記録されている音声のうち入力順の最先のものを示す。

続いて、端末１０の送受信部１１は、変換用の音声データをテキストデータに変換するための変換要求を音声変換サービス３０へ送信する（ステップＳ４２）。変換要求には、ステップＳ４１で編集された変換用の音声データが含まれる。

音声変換サービス３０の送受信部３１は、端末１０によって送信された変換要求を受信する。音声変換サービス３０の変換部３２は、変換要求に含まれる変換用の音声データを音声認識によりテキストに変換する（ステップＳ４３）。音声データをテキストに変換する方法としては、特に限定されないが、発話を記録した学習用データから音声の特徴を蓄積し、認識対象となる入力音声から抽出された特徴と蓄積された特徴とを比較しながら、最も近い単語を認識結果として出力する方法が用いられる。なお、学習用データは、記憶部３０００に記憶されている。

ステップＳ４３の処理で、音声変換サービス３０の変換部３２は、変換されたテキストの信頼度を出力する。信頼度は、例えば、学習用データと、音声データの特徴の類似度として、最低の0から最高の1の値で出力される。信頼度が所定の閾値として、例えば、0.8に満たない場合、変換部３２は、他の変換候補のテキスト、及びこのテキストに対応する信頼度を出力する。以下、ステップＳ４３で、変換部３２が、テキスト”Because one can”、及びこのテキストの信頼度「0.48」、並びに他の変換候補のテキスト”Because won can”、及びこのテキストの信頼度「0.38」を出力した場合について説明を続ける。

音声変換サービス３０の送受信部３１は、ステップＳ４３で出力された２つのテキスト、及び信頼度の組を、変換要求の要求元の端末１０へ送信する。端末１０の送受信部１１は、音声変換サービス３０によって送信された２つのテキスト、及び信頼度の組を受信する（ステップＳ４４）。

図８の（Ａ）は、テキスト受信後の端末１０におけるディスプレイ３の表示例である。端末１０の表示制御部１５は、音声変換サービス３０から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”、及びこのテキストの信頼度を示すアイコンＩ１をディスプレイ３へ出力することで、ディスプレイ３の表示を更新する（ステップＳ４５）。なお、アイコンＩ１は、信頼度が0.6以下であることを示す。この状態で、ユーザがアイコンＩ１にカーソルを合わせる操作をすると、表示制御部１５は、音声変換サービス３０から送られてきた２つのテキスト、及びこれらのテキストの信頼度の組をディスプレイ３から表示させる。

なお、図８の（Ｂ）は、端末１０が、音声変換サービス３０から、テキスト”Because one can”、及びこのテキストの信頼度「0.68」、並びに他の変換候補のテキスト”Because won can”、及びこのテキストの信頼度「0.58」を受信した場合の、ステップＳ４５におけるディスプレイ３の表示例である。この例では、端末１０の表示制御部１５は、音声変換サービス３０から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”、及びこのテキストの信頼度を示すアイコンＩ２をディスプレイ３へ出力する。アイコンＩ２は、信頼度が0.6より大きく0.7以下であることを示す。このように、端末１０の表示制御部１５は、信頼度に応じて表示させるアイコンを変更することで、ユーザに直感的にテキストの信頼度を認識させることができる。

続いて、音声処理部１４は、音声管理部１００２で管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”を含む音声データに対して何回テキストに変換したかを記憶部１０００に記憶することでカウントする（ステップＳ４６）。ここまで、”Because one can”を含む音声データは、１回テキストに変換されているので、記憶部１０００には「1」が記憶される。

端末１０の音声処理部１４は、音声変換サービス３０から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”の信頼度「0.48」が所定の閾値αとして、例えば、0.8以上であるか判断する（ステップＳ４７）。なお、閾値αは0.8に限定されず、所望の処理速度、及び信頼性に応じて任意に設定される。

ステップＳ４７でＮＯと判断されると、端末１０の音声処理部１４は、音声管理部１００２で管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”を含む音声データに対して変換要求した回数が所定の閾値Ｎとして３回以上であるか判断する（ステップＳ４８）。なお、閾値Ｎは３回に限定されず、所望の処理速度、及び信頼性に応じて任意に設定される。先のステップＳ４６で、変換回数は「1」とカウントされている。このため、ステップＳ４８でＮＯと判断され、端末１０による処理はステップＳ４１に戻る。

端末１０の音声処理部１４は、Ｎ回目のステップＳ４１の処理で、音声管理部１００２において管理されている最も小さいネクストポインタが指す分割音声データからＮ番目に小さいネクストポインタが指す分割音声データまでを順に結合した音声データを変換用の音声データとして取得する。即ち、２回目のステップＳ４１の処理では、音声処理部１４は、最も小さいネクストポインタが指す”Because one can”の分割音声データ、及び２番目に小さいネクストポインタが指す音声"never come to understand the”の分割音声データが結合された、音声”Because one can never come to understand the”の音声データを変換用の音声データとして取得する。

続いて、２回目のステップＳ４２乃至Ｓ４４の処理で、１回目のステップＳ４２乃至Ｓ４４の処理と同様にして、端末１０は、変換用の音声データをテキストに変換するための変換要求を音声変換サービス３０へ送信する。これにより、端末１０は、音声変換サービス３０から、音声データから変換されたテキスト、及び信頼度の組を受信する。

なお、音声変換サービス３０は、２回目のテキスト変換では、１回目のテキスト変換に用いた音声よりも長い音声の音声データを用いるので、音声に含まれるより多くの単語の関連性を考慮して信頼度を算出できる。例えば、音声変換サービス３０は、”one"と"come"を同じ文で使用される確率が、”won"と"come"を同じ文で使用される確率よりも高いことを学習していれば、変換候補のうち、”Because one can never come to understand the”の信頼度を、”Because won can never come to understand the”の信頼度よりも大きい値として出力することができる。これにより、テキスト変換の信頼性が向上する。以下、２回目のテキスト変換処理で、音声変換サービス３０が、変換結果としてテキスト”Because one can never come to understand the”、及びこのテキストの信頼度「0.92」を出力し、端末１０がこれを受信した場合について説明する。

図８の（Ｃ）は、２回目のテキストの受信後の端末１０におけるディスプレイの表示例である。２回目のステップＳ４５で、端末１０の表示制御部１５は、音声変換サービス３０から送られてきたテキスト”Because one can never come to understand the”、及びこのテキストの信頼度を示すアイコンＩ３をディスプレイ３へ出力する。なお、アイコンＩ３は、信頼度が0.8以上であることを示す。

続いて、２回目のステップＳ４６の処理で、音声処理部１４は、音声管理部１００２において管理されている最も小さいネクストポインタが指す音声”Because one can”を含む音声データの変換回数「２」を記憶部１０００に記憶することでカウントする。

続いて、２回目のステップＳ４７の処理で、端末１０の音声処理部１４は、音声変換サービス３０から送られてきたテキスト”Because one can”の信頼度「0.96」が所定の閾値α「0.8」以上である(ＹＥＳ)と判断する。

ステップＳ４７、又はステップＳ４８でＹＥＳと判断された場合、記憶・読出部１９は、変換用の音声データの生成に用いられた分割音声データを音声管理部１００２から削除する（ステップＳ４９）。なお、ステップＳ４１の処理が繰り返し実行された場合、変換用の音声データとは、最終のループで生成された変換用の音声データである。例えば、２回目のステップＳ４１で音声”Because one can never come to understand the”の変換用音声データが生成され、２回目のステップＳ４７でＹＥＳと判断された場合、記憶・読出部１９は、音声”Because one can”の分割音声データ、及び音声”never come to understand the”の分割音声データを音声管理部１００２から削除する。これにより、音声管理部１００２において管理される分割音声データのうち最も小さいネクストポインタが指す音声は、"nature of mind and its law"に係るものになるので、端末１０が、次に、ステップＳ４１を実行するときには、"nature of mind and its law"の分割音声データが取得されることになる。

続いて、記憶・読出部１９は、ステップＳ４４で音声変換サービス３０から送られてきた信頼度が0.8以上のテキストを記憶部１０００に記憶させることにより、音声から変換されたテキストを確定させる（ステップＳ５１）。

なお、上記の実施形態では、同音異義語を含む音声”Because one can”の１回目のテキスト変換で信頼度が0.8以上の結果が得られず、音声”Because one can”に、音声”can never come to understand the”が追加された音声による２回目のテキスト変換で、変換結果が確定した例を説明した。但し、同音異義語を含まないような場合には、短い音声であっても１回のテキストへの変換で信頼度が0.8以上の結果が得られる可能性は高まる。このように、本実施形態の音声変換方法によると、短い音声をテキスト変換することで、リアルタイム性が向上するとともに、信頼性が所定の閾値に満たない場合には組み合わせた音声をテキスト変換することで信頼性が向上する。

＜＜実施形態の変形例Ａ＞＞
続いて、実施形態の変形例Ａについて上記実施形態と異なる点を説明する。表１は、実施形態の変形例Ａにおける分割管理テーブルの一例を示す。変形例Ａの分割管理テーブルでは、言語を示す情報に関連付けて、音声を分割して音声データを生成するときの各音声データのデータ量を示す分割データ量が管理されている。

実施形態の変形例Ａでは、ステップＳ２２で、端末１０の記憶・読出部１９は、ステップＳ２１で入力された言語を検索キーとして、分割管理テーブルを検索し、対応する分割データ量を読み出す。

続いて、ステップＳ３２で、端末１０の音声入力部１３は、入力される音声を、ステップＳ２２で読みだされたデータ量を超えないように分割して分割音声データを生成する。以後の処理は、上記実施形態と同様に実行される

実施形態の変形例Ａにおいて、分割管理テーブルの分割データ量として、一般的な一文の長さの音声データのデータ量よりも小さい値を設定しておくことで、上記実施形態と同様に、リアルタイム性の高い音声のテキスト変換を実現できる。実施形態の変形例Ａによると、端末１０は、無音の区間を含む音声から分割音声データを生成するときに、有音の音声から分割音声データを生成するときよりも、設定された分割データ量で長い時間の音声を記録できる。これにより、端末１０は、無音の場合にも同じ時間ごとの分割音声データを生成して、音声変換サービス３０への変換要求を繰り返すことを防ぐことができる。

＜＜本実施形態の主な効果＞＞
続いて、上記の実施形態の主な効果を説明する。上記実施形態の音声変換方法によると、端末１０の音声入力部１３（生成手段の一例）は、入力された音声から、音声データを生成する（生成処理の一例）。端末１０の送受信部１１（送信手段の一例）は、音声入力部１３によって生成される音声データのうち、２秒（第１の長さの一例）の音声の音声データを、音声変換サービス３０（音声変換システムの一例）へ送信する（送信処理の一例）。端末１０の送受信部１１（受信手段の一例）は、音声変換サービス３０によって音声データから変換されたテキストデータ（変換データの一例）、及び変換の信頼度を示す情報を受信する（受信処理の一例）。端末１０の送受信部１１は、受信される信頼度に応じて、続いて、音声入力部１３によって生成される音声データのうち、４秒の音声の音声データを、音声変換サービス３０へ送信する。端末１０によると、信頼度に応じて、音声変換サービス３０へ送信する音声データの音声の長さを変更することで、信頼度を維持しつつ、変換の処理時間を低減させることが可能になる。

端末１０の送受信部１１は、受信された信頼度を示す情報が所定の閾値に満たない場合に、先に送信した２秒の音声と、この音声に続く２秒の音声と、を含む４秒（第２の長さの一例）の音声の音声データを、音声変換サービス３０へ送信する。これにより、音声変換サービス３０では、より多くの単語を含む音声データから音声認識を行うことができるので、変換の信頼性が向上する。

端末１０の送受信部１１は、所定の閾値α以上の信頼度を示す情報が受信された場合、又は、所定の閾値α未満の信頼度を示す情報が所定回数Ｎ受信された場合、２秒の音声を含む音声データの音声変換サービス３０への送信を停止する。これにより、同じ音声の音声データが繰り返し変換されることで、処理時間が増えることを防ぐことができる。

端末１０の音声入力部１３は、入力された音声が２秒に分割された音声の分割音声データを生成する。端末１０の送受信部１１は、音声入力部１３によって生成される分割音声データを１つ（第１の数の一例）含む２秒の長さの音声データを送信し、続いて、音声入力部１３によって生成される分割音声データを２つ（第２の数の一例）含む４秒の音声データを送信する。これにより、端末１０は、予め生成された分割音声データを音声変換サービス３０へ送信できるので、処理時間を低減させることができる。

端末１０の操作入力受付部１２（受付手段の一例）は、言語の指定を受け付ける。端末１０の音声入力部１３は、入力された音声が、操作入力受付部１２によって受け付けられた言語に対応する所定の長さに分割された音声の分割音声データを生成する。これにより、端末１０は、言語ごとの変換の信頼性に応じて、音声を分割することができる。

端末１０の送受信部１１が、第１のデータ量の音声データ、又は第２のデータ量の音声データを音声変換サービス３０へ送信する変形例の構成においても、上記実施形態と同様の効果が得られる。

＜＜実施形態の補足＞＞
端末１０、及び音声変換サービス３０用の各プログラムは、インストール可能な形式又は実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体に記録されて流通されるようにしてもよい。また、上記記録媒体の他の例として、ＣＤ−Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、ブルーレイディスク等が挙げられる。

また、上記実施形態の各プログラムが記憶されたＣＤ−ＲＯＭ等の記録媒体、並びに、これらプログラムが記憶されたＨＤ５０４は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。

また、上記実施形態における端末１０、及び音声変換サービス３０は、単一のコンピュータによって構築されてもよいし、各部（機能又は手段）を分割して任意に割り当てられた複数のコンピュータによって構築されていてもよい。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路を含むプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)や従来の回路モジュール等のデバイスを含むものとする。

１通信システム
２通信ネットワーク
１０端末
１１送受信部
１２操作入力受付部
１３音声入力部
１４音声処理部
１５表示制御部
１９記憶・読出部
３０音声変換サービス
３１送受信部
３２変換部
３９記憶・読出部
１０００記憶部
１００１分割管理ＤＢ
１００２音声管理部
３０００記憶部

特開２０１５−１８４５６４号公報

Claims

入力された音声から、音声データを生成する生成手段と、
前記生成手段によって生成される音声データのうち、第１の長さの音声の音声データを、音声変換システムへ送信する送信手段と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第１の長さとは異なる第２の長さの音声の音声データを、前記音声変換システムへ送信する
通信端末。
前記受信手段によって受信された前記信頼度を示す情報が所定の閾値に満たない場合に、前記送信手段は、前記第１の長さの音声を含み、前記第１の長さの音声よりも長い前記第２の長さの音声の音声データを、前記音声変換システムへ送信する
請求項１に記載の通信端末。
前記受信手段によって前記所定の閾値以上の信頼度を示す情報が受信された場合、又は、前記受信手段によって前記所定の閾値未満の信頼度を示す情報が所定回数受信された場合、前記送信手段は、前記第１の長さの音声を含む音声データの前記音声変換システムへの送信を停止する
請求項２に記載の通信端末。
前記生成手段は、入力された音声が所定の長さに分割された音声の音声データを生成し、
前記送信手段は、前記生成手段によって生成される音声データを第１の数含む前記第１の長さの音声データを送信し、前記生成手段によって生成される音声データを第１の数とは異なる第２の数含む前記第２の長さの音声データを送信する
請求項１乃至３のいずれか一項に記載の通信端末。
言語の指定を受け付ける受付手段を有し、
前記生成手段は、入力された音声が、前記受付手段によって受け付けられた言語に対応する所定の長さに分割された音声の音声データを生成する
請求項４に記載の通信端末。
入力された音声から、音声データを生成する生成手段と、
前記生成手段によって生成される音声データのうち、第１のデータ量の音声データを、音声変換システムへ送信する送信手段と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第１のデータ量とは異なる第２のデータ量の音声データを、前記音声変換システムへ送信する
通信端末。
通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第１の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第１の長さとは異なる第２の長さの音声の音声データを、前記音声変換システムへ送信する
音声変換方法。
通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第１のデータ量の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第１のデータ量とは異なる第２のデータ量の音声データを、前記音声変換システムへ送信する
音声変換方法。
通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第１の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第１の長さとは異なる第２の長さの音声の音声データを、前記音声変換システムへ送信させる
プログラム。
通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第１のデータ量の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第１のデータ量とは異なる第２のデータ量の音声データを、前記音声変換システムへ送信させる
プログラム。