JP7119939B2

JP7119939B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7119939B2
Application number: JP2018216668A
Authority: JP
Inventors: 淳塚本
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2022-08-17
Anticipated expiration: 2038-11-19
Also published as: US20240046917A1; US20210350787A1; CN111277976B; US11195508B2; JP2020086003A; US20200160834A1; US11837218B2; CN111277976A

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

従来、音声コンテンツ（以下、「コンテンツ」と称する）を配信する配信サーバが、無線ＬＡＮ（Local Area Network）などの通信ネットワークを介して、コンテンツを配信する技術が知られている。

例えば、特許文献１には、ストリーミング型コンテンツの再生と並行してダウンロード型コンテンツをダウンロードし、ダウンロード完了後に、ストリーミング型コンテンツの再生からダウンロード型コンテンツの再生へと切り替える技術が開示されている。

特開２００６－４１７２１号公報

一般に、コンテンツのデータ量あるいは通信速度によっては、コンテンツのダウンロードが完了するまでに長時間を要することがある。そのため、特許文献１に記載されている技術では、コンテンツのダウンロードが完了する前であって、ストリーミング再生中に、クライアントが基地局のカバーエリア外に移動すると、コンテンツの再生を行うことができない。また、特許文献１に記載されている技術では、コンテンツの再生開始時に、ストリーミング再生に必要なだけのコンテンツを受信するまでは、コンテンツの再生を行うことができない。このように、従来技術では、コンテンツの再生を行うことができない可能性がある。

上記のような問題点に鑑みてなされた本発明の目的は、サーバから配信されるコンテンツの再生を行うことができない可能性を低減することができる情報処理装置、情報処理方法およびプログラムを提供することにある。

本発明の一実施形態に係る情報処理装置は、コンテンツの音声データおよび前記音声データに対応するテキストデータを受信する通信部と、
前記音声データの再生を行う音声データ再生部と、
前記テキストデータの音声合成による再生を行うテキストデータ再生部と、
前記音声データまたは前記テキストデータの再生を制御する制御部と、を備え、
前記制御部は、前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせる。

本発明の一実施形態に係る情報処理方法は、コンテンツの音声データの再生を行う音声データ再生部および前記音声データに対応するテキストデータの音声合成による再生を行うテキストデータ再生部を備える情報処理装置における情報処理方法であって、
前記音声データおよび前記テキストデータを受信するステップと、
前記音声データまたは前記テキストデータの再生を制御するステップと、を含み、
前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせる。

本発明の一実施形態に係るプログラムは、コンテンツの音声データの再生を行う音声データ再生部および前記音声データに対応するテキストデータの音声合成による再生を行うテキストデータ再生部を備える情報処理装置に、
前記音声データおよび前記テキストデータを受信するステップと、
前記音声データまたは前記テキストデータの再生を制御するステップと、を実行させ、
前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせる。

本発明の一実施形態に係る情報処理装置、情報処理方法およびプログラムによれば、サーバから配信されるコンテンツの再生を行うことができない可能性を低減することができる。

本発明の一実施形態に係る情報処理装置を含む情報処理システムの構成例を示す図である。図１に示す情報処理装置の動作の一例を示すフローチャートである。図１に示す情報処理装置の動作の他の一例を示すフローチャートである。

以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。

図１は、本発明の一実施形態に係る情報処理装置１０を含む情報処理システム１の構成例を示す図である。

図１に示す情報処理システム１は、配信サーバ２と、情報処理装置１０とを備える。

配信サーバ２は、ニュースの読み上げ、あるいは、ユーザとの間で音声による対話を行う対話システムにおけるユーザへの応答などの音声コンテンツ（コンテンツ）を配信する。具体的には、配信サーバ２は、コンテンツの音声データ、および、音声データに対応するテキストデータを配信する。音声データに対応するテキストデータとは、音声データと同じ内容をテキストで表現したデータである。音声データに対応するテキストデータは、例えば、音声データの音声をテキストに書き下したデータ、あるいは、音声データの音声を書き下したテキストに対する読み、アクセントおよび韻律などの言語解析により生成される中間言語と呼ばれる発音記号列からなるデータなどである。

情報処理装置１０は、配信サーバ２から配信されたコンテンツの音声データおよびテキストデータを取得（受信）し、コンテンツを再生する。情報処理装置１０は、例えば、車両３に搭載されたカーナビゲーション装置である。車両３には、ネットワーク４を介して配信サーバ２と通信可能な通信装置２０が搭載されている。ネットワーク４は、例えば、移動体通信網およびインターネットなどのネットワークを含むが、任意の通信網を含んでもよい。

車両３は、例えば、自動車であるが、これに限られず、人間が搭乗可能な任意の車両であってもよい。車両３は、ユーザによって運転される車両であるが、これに限られず、例えば、自動運転を行う車両であってもよい。自動運転は、例えば、ＳＡＥ（Society of Automotive Engineers）において、定義されるレベル１ないし５を含むが、これらに限られず、任意に定義されてもよい。配信サーバ２は、１つまたは互いに通信可能な複数のサーバ装置を含む。本実施形態では、説明の簡便のため、配信サーバ２が１つのサーバ装置であるものとして説明する。

通信装置２０は、ネットワーク４を構成する基地局との無線通信を行う。通信装置２０は、例えば、ＤＣＭ（Data Communication Module）などの車載通信機であってもよい。通信装置２０は、ネットワーク４に接続するために、４Ｇおよび５Ｇなどの移動体通信規格に対応する通信モジュールを含んでよい。

情報処理装置１０が車両３に搭載される場合、情報処理装置１０は、通信装置２０を介して、ネットワーク４経由で、コンテンツの音声データおよびテキストデータを取得する。情報処理装置１０は、携帯電話、スマートフォンおよびタブレット端末などの無線通信機能を備えた通信装置であってもよい。この場合、情報処理装置１０は、通信装置２０を介さず、ネットワーク４に直接アクセスして、配信サーバ２からコンテンツの音声データおよびテキストデータを取得してもよい。以下では、情報処理装置１０は、車両３に搭載され、通信装置２０を介して、ネットワーク４経由で、コンテンツの音声データおよびテキストデータを取得するものとして説明する。

次に、情報処理装置１０の構成について説明する。なお、配信サーバ２は、コンテンツの音声データとテキストデータとを対応付けて保持し、これらのデータをネットワーク４を介して配信（ストリーミング配信あるいはダウンロード配信）する機能を備えていれば任意の構成とすることができる。したがって、配信サーバ２の構成については説明を省略する。

図１に示す情報処理装置１０は、入力部１１と、通信部１２と、記憶部１３と、音声データ再生部１４と、テキストデータ再生部１５と、制御部１６とを備える。

入力部１１は、ユーザによる操作入力を受け付け、入力された操作に応じた信号を制御部１６に出力する。入力部１１は、例えば、ボタン、スイッチ、ダイヤルノブなどで構成される。また、入力部１１は、情報処理装置１０が表示部を備える場合には、表示部の表示面上にタッチセンサのタッチ面を配置したタッチパネルとして構成されてもよい。また、入力部１１は、音声入力を受け付けるマイクとして構成されてもよい。

通信部１２は、制御部１６の制御に従い、通信装置２０を介して、配信サーバ２から配信されたコンテンツの音声データおよびテキストデータを受信する。また、通信部１２は、制御部１６の制御に従い、種々の要求を、通信装置２０を介して、配信サーバ２に送信してもよい。

記憶部１３は、１つ以上のメモリを含む。本実施形態において、「メモリ」は、例えば、半導体メモリ、磁気メモリまたは光メモリなどであるが、これらに限られない。記憶部１３に含まれる各メモリは、例えば、主記憶装置、補助記憶装置またはキャッシュメモリとして機能してもよい。記憶部１３は、情報処理装置１０の動作に用いられる任意の情報を記憶する。例えば、記憶部１３は、システムプログラム、アプリケーションプログラムを記憶してもよい。また、記憶部１３は、通信部１２が受信したコンテンツの音声データおよびテキストデータを記憶してもよい。

音声データ再生部１４は、制御部１６の制御に従い、通信部１２が受信した音声データの再生を行う。音声データ再生部１４は、音声データの受信と並行して、その音声データの再生を行うストリーミング再生、または、音声データの受信が完了した後に、受信された音声データの再生を行うダウンロード再生が可能である。

テキストデータ再生部１５は、制御部１６の制御に伴い、通信部１２が受信したテキストデータの音声合成による再生（音声合成再生）を行う。

なお、音声データ再生部１４およびテキストデータ再生部１５は、例えば、情報処理装置１０がスピーカを備える車両に搭載される場合には、車両に備えられたスピーカを介して、コンテンツを再生する。また、音声データ再生部１４およびテキストデータ再生部１５は、例えば、情報処理装置１０自体がスピーカを備える場合には、情報処理装置１０が備えるスピーカを介して、コンテンツを再生する。

ストリーミング再生では、再生されるコンテンツの音質は良いが、通信環境が悪化すると再生が途絶する。また、ダウンロード再生では、再生されるコンテンツの音質は良いが、データ量が大きな音声データのダウンロードが完了するまで再生を開始できない。また、音声合成再生では、再生に必要なテキストデータのデータ量は非常に小さいが、ストリーミング再生およびダウンロード再生と比べて、再生されるコンテンツの音質は悪い。このように、コンテンツ再生、ダウンロード再生および音声合成再生にはそれぞれ、長所と短所とがある。本実施形態においては、情報処理装置１０は、詳細は後述するが、これらの再生方法を組み合わせることで、配信サーバ２から配信されるコンテンツの再生を行うことができない可能性を低減することができる。

制御部１６は、１つ以上のプロセッサを含む。制御部１６は、情報処理装置１０全体の動作を制御する。例えば、制御部１６は、通信部１２が受信した音声データおよびテキストデータの再生を制御する。具体的には、制御部１６は、音声データ再生部１４が音声データの再生を行うことができない場合、テキストデータ再生部１５にテキストデータの再生を行わせる。一般に、テキストデータは、音声データと比べて、データ量が小さく、短時間でのダウンロードが可能である。そのため、音声データの再生を行うことができない場合でも、テキストデータのダウンロードは完了し、テキストデータの音声合成再生は可能である可能性が高い。したがって、音声データの再生を行うことができない場合に、テキストデータの再生を行うことで、配信サーバ２から配信されるコンテンツの再生を行うことができない可能性を低減することができる。

次に、本実施形態に係る情報処理装置１０の動作について説明する。上述したように、本実施形態に係る情報処理装置１０は、音声データ再生部１４が音声データの再生を行うことができない場合、テキストデータ再生部１５にテキストデータの再生を行わせる。音声データを再生することができない状況は、例えば、音声データの再生の開始時、また、ストリーミング再生中などに生じうる。以下では、これら２つの場合を例として、情報処理装置１０の動作について説明する。

まず、音声データの再生開始時の情報処理装置１０の動作について、制御部１６の動作を中心に、図２に示すフローチャートを参照して説明する。

ステップＳ１０１：制御部１６は、例えば、入力部１１を介して、コンテンツの再生を要求する操作が入力されると、そのコンテンツの再生を要求する再生要求を、通信部１２に配信サーバ２へ送信させる。配信サーバ２は、情報処理装置１０から送信されてきた再生要求を受信すると、再生が要求されたコンテンツのテキストデータの配信を開始する。

ステップＳ１０２：通信部１２は、配信サーバ２からコンテンツのテキストデータの配信が開始されると、そのテキストデータをダウンロードする。

ステップＳ１０３：テキストデータのダウンロードが完了すると、制御部１６は、コンテンツのストリーミング再生またはダウンロード再生の開始要求を、通信部１２に配信サーバ２へ送信させる。配信サーバ２は、情報処理装置１０から送信されてきた開始要求を受信すると、その開始要求に応じて、コンテンツのストリーミング再生あるいはダウンロード再生のための音声データの配信を開始する。

ステップＳ１０４：制御部１６は、ストリーミング再生またはダウンロード再生を速やかに（例えば、所定時間以内に）開始できる見込みがあるか否かを判定する。制御部１６は、例えば、配信サーバ２から配信される音声データの受信速度に基づき、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがあるか否かを判定する。すなわち、制御部１６は、音声データの受信速度が所定基準よりも速い場合、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがあると判定する。制御部１６は、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがあると判定した場合には（ステップＳ１０４：Ｙｅｓ）、ステップＳ１０５の処理に進む。制御部１６は、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがないと判定した場合には（ステップＳ１０４：Ｎｏ）、ステップＳ１０７の処理に進む。制御部１６は、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがないと判定した場合にも、音声データの受信を通信部１２に継続させる。

ステップＳ１０５：制御部１６は、ストリーミング再生またはダウンロード再生が可能であるか否かを判定する。すなわち、制御部１６は、ストリーミング再生の場合には、ストリーミング再生を開始するのに必要なだけの音声データの受信が完了したか否かを判定する。また、制御部１６は、ダウンロード再生の場合には、コンテンツの音声データのダウンロードが完了したか否かを判定する。制御部１６は、ストリーミング再生またはダウンロード再生が可能でないと判定した場合には（ステップＳ１０５：Ｎｏ）、ステップＳ１０５の処理を繰り返す。制御部１６は、ストリーミング再生またはダウンロード再生が可能であると判定した場合には（ステップＳ１０５：Ｙｅｓ）、ステップＳ１０６の処理に進む。

ステップＳ１０６：制御部１６は、ストリーミング再生またはダウンロード再生が可能となると、受信した音声データのストリーミング再生またはダウンロード再生を音声データ再生部１４に開始させる。

ステップＳ１０７：制御部１６は、ストリーミング再生またはダウンロード再生を速やかに開始できる見込みがない場合、受信したテキストデータの音声合成による再生をテキストデータ再生部１５に行わせる。

ステップＳ１０８：制御部１６は、テキストデータの再生中、ストリーミング再生またはダウンロード再生が可能になったか否かを判定する。すなわち、制御部１６は、ストリーミング再生の場合には、ストリーミング再生を開始するのに必要なだけの音声データの受信が完了したか否かを判定する。また、制御部１６は、ダウンロード再生の場合には、コンテンツの音声データのダウンロードが完了したか否かを判定する。制御部１６は、ストリーミング再生またはダウンロード再生が可能になっていない判定した場合には（ステップＳ１０８：Ｎｏ）、ステップＳ１０７の処理に戻る。制御部１６は、ストリーミング再生またはダウンロード再生が可能になったと判定した場合には（ステップＳ１０８：Ｙｅｓ）、ステップＳ１０９の処理に進む。

ステップＳ１０９：制御部１６は、テキストデータ再生部１５が再生したテキストデータの文字数およびテキストデータの再生速度から、テキストデータ再生部１５によるコンテンツの再生位置を推定する。テキストデータ再生部１５によるコンテンツの再生位置の推定の詳細については後述する。

ステップＳ１１０：制御部１６は、コンテンツの再生を、テキストデータ再生部１５によるテキストデータの再生から音声データ再生部１４による音声データの再生（ストリーミング再生またはダウンロード再生）に切り替え、推定した再生位置から、音声データの再生を音声データ再生部１４に行わせる。

ステップＳ１０６またはステップＳ１１０の処理により、制御部１６は、ダウンロード再生を音声データ再生部１４に開始させた場合、例えば、コンテンツの再生が終了したか否かを判定し、コンテンツの再生が終了したと判定すると、処理を終了する。また、制御部１６は、ストリーミング再生を音声データ再生部１４に開始させた場合、例えば、後述する図３に示すフローに移行する。

次に、ストリーミング再生中の情報処理装置１０の動作について、制御部１６の動作を中心に、図３に示すフローチャートを参照して説明する。

ステップＳ２０１：制御部１６は、ストリーミング再生に必要な音声データが受信されると、受信された音声データのストリーミング再生を音声データ再生部１４に行わせる。

ステップＳ２０２：制御部１６は、ストリーミング再生が途絶したか否かを判定する。制御部１６は、例えば、配信サーバ２から音声データを受信できない、すなわち、配信サーバ２との通信が途絶した場合に、ストリーミング再生が途絶したと判定する。制御部１６は、ストリーミング再生が途絶していないと判定した場合（ステップＳ２０２：Ｎｏ）、ステップＳ２０３の処理に進む。制御部１６は、ストリーミング再生が途絶したと判定した場合（ステップＳ２０２：Ｙｅｓ）、ステップＳ２０４の処理に進む。

こうすることで、音質の良い音声データによるコンテンツのストリーミング再生を可能な限り継続した後、テキストデータの再生に切り替えることができる。

ステップＳ２０３：制御部１６は、コンテンツの再生（ストリーミング再生によるコンテンツの再生）が終了したか否かを判定する。制御部１６は、コンテンツの再生が終了したと判定した場合（ステップＳ２０３：Ｙｅｓ）、処理を終了する。制御部１６は、コンテンツの再生が終了していないと判定した場合には（ステップＳ２０３：Ｎｏ）、ステップＳ２０２の処理に戻る。

ステップＳ２０４：制御部１６は、ストリーミング再生が途絶したと判定すると、ストリーミング再生の再生時間および再生速度から、音声データ再生部１４によるコンテンツの再生位置を推定する。音声データ再生部１４によるコンテンツの再生位置の推定の詳細については後述する。

ステップＳ２０５：制御部１６は、コンテンツの再生を、音声データ再生部１４によるストリーミング再生からテキストデータ再生部１５によるテキストデータの再生に切り替え、推定した音声データ再生部１４によるコンテンツの再生位置から、テキストデータの再生をテキストデータ再生部１５に開始させる。

なお、制御部１６は、通信部１２による音声データの受信速度が、音声データ再生部１４によるストリーミング再生に十分な受信速度である場合、再生前の音声データを記憶部１３に一時的にバッファしてもよい。この場合、制御部１６は、ストリーミング再生が途絶すると、音声データ再生部１４に記憶部１３にバッファされている未再生の音声データの再生を行わせた後、音声データ再生部１４によるコンテンツの再生位置から、テキストデータ再生部１５にテキストデータの再生を行わせてもよい。

ステップＳ２０６：制御部１６は、ストリーミング再生への復帰が可能となったか否かを判定する。制御部１６は、例えば、配信サーバ２との通信が復帰し、ストリーミング再生に必要な音声データが受信されたか否かにより、ストリーミング再生への復帰が可能となったか否かを判定する。制御部１６は、ストリーミング再生への復帰が可能となっていないと判定した場合（ステップＳ２０６：Ｎｏ）、ステップＳ２０７の処理に進む。制御部１６は、ストリーミング再生への復帰が可能となったと判定した場合（ステップＳ２０６：Ｙｅｓ）、ステップＳ２０９の処理に進む。

ステップＳ２０７：制御部１６は、ストリーミング再生への復帰が可能となっていないため、テキストデータ再生部１５によるテキストデータの再生を継続する。

ステップＳ２０８：制御部１６は、コンテンツの再生（テキストデータの再生によるコンテンツの再生）が終了したか否かを判定する。制御部１６は、コンテンツの再生が終了したと判定した場合（ステップＳ２０８：Ｙｅｓ）、処理を終了する。制御部１６は、コンテンツの再生が終了していないと判定した場合には（ステップＳ２０８：Ｎｏ）、ステップＳ２０６の処理に戻る。

ステップＳ２０９：制御部１６は、ストリーミング再生に復帰するために、テキストデータ再生部１５によるテキストデータの再生文字数および再生速度から、テキストデータ再生部１５によるコンテンツの再生位置を推定する。テキストデータ再生部１５によるコンテンツの再生位置の推定の詳細については後述する。

ステップＳ２１０：制御部１６は、コンテンツの再生を、テキストデータ再生部１５によるテキストデータの再生から音声データ再生部１４によるストリーミング再生に切り替え、推定したテキストデータ再生部１５によるコンテンツの再生位置から、ストリーミング再生を音声データ再生部１４に開始させる。その後、制御部１６は、ステップＳ２０３の処理に進む。

次に、音声データ再生部１４およびテキストデータ再生部１５によるコンテンツの再生位置の推定方法について説明する。まず、テキストデータ再生部１５によるコンテンツの再生位置の推定方法について説明する。

上述したように、制御部１６は、テキストデータ再生部１５が再生したテキストデータの文字数およびコンテンツの再生速度から、テキストデータ再生部１５によるコンテンツの再生位置を推定する。具体的には、制御部１６は、テキストデータ再生部１５が再生したテキストデータの文字数にテキストデータの再生速度を乗算して、テキストデータ再生部１５によるテキストデータの再生時間を推定する。そして、制御部１６は、テキストデータ再生部１５が再生を開始したコンテンツの位置から、推定した再生時間だけ進めた位置を、音声データにおけるコンテンツの再生位置と推定する。

例えば、「こんにちは。いいてんきですね。」というテキストデータを、０．３秒／文字の再生速度でテキストデータ再生部１５が再生したとする。ただし、句点「。」は１秒の間をとるものとする。この場合、制御部１６は、テキストデータ再生部１５によるコンテンツの再生時間を、１３文字（こんにちはいいてんきですね）×０．３秒／文字＋２秒（句点「。」×２個）＝５．９秒と推定する。そして、制御部１６は、テキストデータ再生部１５が再生を開始したコンテンツの位置から、推定した再生時間（５．９秒）だけ進めた位置を、テキストデータ再生部１５によるコンテンツの再生位置と推定する。

ただし、テキストデータの実際の再生速度は、コンテンツの文章によって変動する。したがって、制御部１６は、上述した演算により推定したコンテンツ再生位置よりも所定時間分だけ前の位置から音声データ再生部１４に音声データの再生を開始させてもよい。すなわち、制御部１６は、再生した文字×再生速度－誤差補正（再生時間を補正する補正時間）という式に従い、コンテンツの再生時間を推定してもよい。こうすることで、切り替え時に、コンテンツの一部の内容が重複して再生される可能性はあるが、コンテンツの内容が欠落する読み飛ばしの発生可能性を低減することができる。

なお、一般に、テキストデータ再生部１５により再生されたテキストデータの文字数が多いほど、誤差が大きくなる可能性がある。そこで、制御部１６は、テキストデータ再生部１５により再生されたテキストデータの文字数が多いほど、上述した誤差補正の値を大きくしてもよい。

また、一般に、コンテンツのジャンルに応じて、テキストデータの再生速度が異なることがある。そこで、制御部１６は、コンテンツのテキストデータの再生速度を、そのコンテンツのジャンルに基づき変更してもよい。こうすることで、コンテンツのジャンルに応じて適切な再生位置を推定することができる。コンテンツのジャンルは、例えば、コンテンツのテキストデータに、そのコンテンツのジャンルを示す識別子などを付加することで、判別が可能である。

次に、音声データ再生部１４によるコンテンツの再生位置の推定方法について説明する。

上述したように、制御部１６は、音声データ再生部１４による音声データの再生時間および再生速度から、音声データ再生部１４によるコンテンツの再生位置を推定する。具体的には、制御部１６は、音声データ再生部１４による音声データの再生時間を音声データの再生速度で除算して、音声データ再生部１４によるコンテンツの再生文字数を推定する。そして、制御部１６は、音声データ再生部１４が再生を開始したコンテンツの位置から、推定した再生文字数だけ進めた位置を、音声データ再生部１４によるコンテンツの再生位置と推定する。

例えば、「こんにちは。いいてんきですね。」という音声データに対して、音声データ再生部１４が３秒間再生したとする。ここで、音声データ再生部１４によるコンテンツの再生速度は０．３秒／文字とする。ただし、句点「。」は３文字分であるとする。この場合、制御部１６は、音声データ再生部１４による音声データの再生文字数を、３秒÷０．３秒＋３文字（句点「。」１つ分）＝１３文字と推定する。したがって、制御部１６は、音声データ再生部１４が再生を開始したコンテンツの位置から、推定した再生文字数（１３文字）だけ進めた位置（１４文字目）を、音声データ再生部１４によるコンテンツの再生位置と推定する。

ただし、音声データの実際の再生速度は、コンテンツの文章によって変動する。したがって、制御部１６は、上述した演算により推定したコンテンツの再生位置よりも所定時間分だけ前の位置からテキストデータ再生部１５にテキストデータの再生を開始させてもよい。すなわち、制御部１６は、推定した再生位置－誤差補正（再生時間を補正する補正時間）という式に従い、コンテンツの再生時間を推定してもよい。

例えば、上述した「こんにちは。いいてんきですね。」という音声データのうち、「こんにちは。いいて」までが音声データ再生部１４により再生されたとする。この場合、言葉「てんき」の途中からテキストデータ再生部１５によるテキストデータの再生に切り替えても、ユーザがコンテンツの内容を把握しづらい。そこで、制御部１６は、例えば、ひとつ前の句読点の後から（上述した例では、「いいてんき」から）、テキストデータ再生部１５にテキストデータの再生を行わせてもよい。

なお、一般に、音声データ再生部１４による音声データの再生時間が長いほど、誤差が大きくなる可能性がある。そこで、制御部１６は、音声データ再生部１４による音声データの再生時間が長いほど、上述した誤差補正の値を大きくしてもよい。

また、コンテンツの再生位置の推定は、上述した方法に限られるものではない。例えば、情報処理装置１０が搭載された車両３に周辺の音声を収集するマイクが搭載されている場合、あるいは、情報処理装置１０自体がマイクを備えている場合には、制御部１６は、コンテンツの再生中にマイクが収集した音声を解析することで、コンテンツの再生位置を推定してもよい。また、マイクが無い場合、音声データ再生部１４からスピーカへ出力される音声信号を制御部１６に分岐して入力させることで、制御部１６は、音声データ再生部１４によるコンテンツの再生位置を推定してもよい。

また、コンテンツの再生位置の推定について、コンテンツが日本語である場合を例として説明したが、本発明はこれに限られるものではない。例えば、コンテンツが英語である場合、再生速度を「ｎ秒／文字」から「ｎ秒／単語」に置き換え、「再生文字数」を「再生単語数」に置き換えるなどすることで、制御部１６は、コンテンツの再生位置を推定してもよい。

このように本実施形態においては、情報処理装置１０は、コンテンツの音声データおよび音声データに対応するテキストデータを受信する通信部１２と、音声データの再生を行う音声データ再生部１４と、テキストデータの音声合成による再生を行うテキストデータ再生部１５と、音声データまたはテキストデータの再生を制御する制御部１６と、を備える。制御部１６は、音声データ再生部１４が音声データの再生を行うことができない場合、テキストデータ再生部１５にテキストデータの再生を行わせる。

一般に、音声データと比べて、その音声データに対応するテキストデータはデータ量が小さく、短時間で受信が完了する。したがって、音声データの再生が可能となる前、あるいは、通信の途絶などにより音声データの再生（ストリーミング再生）ができない場合にも、テキストデータの受信は完了している可能性が高い。したがって、音声データの再生ができない場合に、テキストデータの再生を行うことで、配信サーバ２から配信されるコンテンツの再生ができない可能性を低減することができる。

以上、情報処理装置１０について説明したが、情報処理装置１０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、情報処理装置１０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本開示の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本開示は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１情報処理システム
２配信サーバ
３車両
４ネットワーク
１０情報処理装置
１１入力部
１２通信部
１３記憶部
１４音声データ再生部
１５テキストデータ再生部
１６制御部
２０通信装置

Claims

コンテンツの音声データおよび前記音声データに対応するテキストデータを受信する通信部と、
前記音声データの再生を行う音声データ再生部と、
前記テキストデータの音声合成による再生を行うテキストデータ再生部と、
前記音声データまたは前記テキストデータの再生を制御する制御部と、を備え、
前記制御部は、前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせ、
前記音声データ再生部は、前記通信部による音声データの受信と並行して、該受信された音声データの再生を行うストリーミング再生が可能であり、
前記制御部は、前記音声データ再生部によるストリーミング再生が途絶すると、前記音声データ再生部によるストリーミング再生の再生時間および再生速度から前記音声データ再生部による前記コンテンツの再生位置を推定し、前記推定した再生位置よりも所定時間分だけ前の位置から、前記テキストデータ再生部に前記テキストデータの再生を行わせる、情報処理装置。
請求項１に記載の情報処理装置において、
前記通信部が受信した音声データをバッファする記憶部をさらに備え、
前記制御部は、前記音声データ再生部によるストリーミング再生が途絶すると、前記音声データ再生部に前記記憶部にバッファされた未再生の音声データの再生を行わせた後、前記音声データ再生部による前記コンテンツの再生位置から、前記テキストデータ再生部に前記テキストデータの再生を行わせる、情報処理装置。
請求項１または２に記載の情報処理装置において、
前記制御部は、前記テキストデータ再生部による前記テキストデータの再生中に、前記音声データ再生部によるストリーミング再生が可能になると、前記テキストデータ再生部による前記テキストデータの再生から前記音声データ再生部によるストリーミング再生に切り替える、情報処理装置。
請求項１に記載の情報処理装置において、
前記音声データ再生部は、前記通信部による音声データの受信と並行して、該受信された音声データの再生を行うストリーミング再生、または、前記コンテンツの音声データの受信が完了した後に、該受信された音声データの再生を行うダウンロード再生が可能であり、
前記制御部は、
前記通信部に前記テキストデータを受信させた後に、前記音声データを受信させ、前記テキストデータの受信が完了すると、前記テキストデータ再生部に前記テキストデータの再生を開始させ、
前記音声データ再生部による前記ストリーミング再生または前記ダウンロード再生が可能になると、前記テキストデータ再生部による前記テキストデータの再生から前記音声データ再生部による前記音声データの再生に切り替える、情報処理装置。
請求項３または４に記載の情報処理装置において、
前記制御部は、前記テキストデータ再生部による前記テキストデータの再生文字数および再生速度から前記テキストデータの再生時間を推定し、該推定した再生時間に基づき、前記テキストデータ再生部による前記コンテンツの再生位置を推定し、該推定した再生位置から前記音声データ再生部に前記音声データの再生を行わせる、情報処理装置。
請求項５に記載の情報処理装置において、
前記制御部は、前記推定した再生位置よりも所定時間分だけ前の位置から、前記音声データ再生部に前記音声データの再生を行わせる、情報処理装置。
コンテンツの音声データの再生を行う音声データ再生部および前記音声データに対応するテキストデータの音声合成による再生を行うテキストデータ再生部を備える情報処理装置における情報処理方法であって、
前記音声データおよび前記テキストデータを受信するステップと、
前記音声データまたは前記テキストデータの再生を制御するステップと、を含み、
前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせ、
前記音声データ再生部は、前記音声データの受信と並行して、該受信された音声データの再生を行うストリーミング再生が可能であり、
前記音声データ再生部によるストリーミング再生が途絶すると、前記音声データ再生部によるストリーミング再生の再生時間および再生速度から前記音声データ再生部による前記コンテンツの再生位置を推定し、前記推定した再生位置よりも所定時間分だけ前の位置から、前記テキストデータ再生部に前記テキストデータの再生を行わせる、情報処理方法。
コンテンツの音声データの再生を行う音声データ再生部および前記音声データに対応するテキストデータの音声合成による再生を行うテキストデータ再生部を備える情報処理装置に、
前記音声データおよび前記テキストデータを受信するステップと、
前記音声データまたは前記テキストデータの再生を制御するステップと、を実行させ、
前記音声データ再生部が前記音声データの再生を行うことができない場合、前記テキストデータ再生部に前記テキストデータの再生を行わせ、
前記音声データ再生部は、前記音声データの受信と並行して、該受信された音声データの再生を行うストリーミング再生が可能であり、
前記音声データ再生部によるストリーミング再生が途絶すると、前記音声データ再生部によるストリーミング再生の再生時間および再生速度から前記音声データ再生部による前記コンテンツの再生位置を推定し、前記推定した再生位置よりも所定時間分だけ前の位置から、前記テキストデータ再生部に前記テキストデータの再生を行わせる、プログラム。