JP2019203922A

JP2019203922A - 音声処理装置及び音声処理方法

Info

Publication number: JP2019203922A
Application number: JP2018097103A
Authority: JP
Inventors: 直樹関根; Naoki Sekine
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2019-11-28
Anticipated expiration: 2038-05-21
Also published as: JP7068923B2

Abstract

【課題】話者が発する指示代名詞の指す対象を検出することを可能にする。【解決手段】実施形態に係る音声処理装置は、取得部と、第１の検出部と、第２の検出部と、第３の検出部と、第４の検出部と、生成部とを備える。前記取得部は、話者の音声データを取得する。前記第１の検出部は、前記音声データから指示代名詞を示すデータを検出する。前記第２の検出部は、前記指示代名詞の種別を検出する。前記第３の検出部は、画像におけるポイント位置を検出する。前記第４の検出部は、前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する。前記生成部は、前記指示代名詞が前記対象を指すことを示す音声データを生成する。【選択図】図９

Description

本発明の実施形態は、音声処理装置及び音声処理方法に関する。

近年、電子データの投影による視覚を前提としたプレゼンテーションが一般化している。他方、多様な人材を活かす戦略、すなわちダイバーシティにより、聴衆の事情も幅広い。例えば、聴覚障がい者へは、手話通訳の支援が入ることもあるが、視覚障がい者は、発表者の声でしか情報を得られない場合が多い。

特開２０１１−８６１２３号公報

しかしながら、発表者は、指示代名詞を用いてプレゼンテーションを行うことが多い。視覚障がい者は、指示代名詞の指す対象が分からなければ、発表者の意図が伝わらないことがある。また、手元資料を見ている聴衆は、発表者が発する指示代名詞が何を指しているのか分からないことがある。

本発明の実施形態が解決しようとする課題は、話者が発する指示代名詞の指す対象を検出することを可能にする音声処理装置及び音声処理方法を提供することである。

実施形態に係る音声処理装置は、取得部と、第１の検出部と、第２の検出部と、第３の検出部と、第４の検出部と、生成部とを備える。前記取得部は、話者の音声データを取得する。前記第１の検出部は、前記音声データから指示代名詞を示すデータを検出する。前記第２の検出部は、前記指示代名詞の種別を検出する。前記第３の検出部は、画像におけるポイント位置を検出する。前記第４の検出部は、前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する。前記生成部は、前記指示代名詞が前記対象を指すことを示す音声データを生成する。

実施形態に係る音声処理装置の構成を例示するブロック図である。実施形態に係る音声処理装置の制御ユニットに実装される構成を例示するブロック図である。実施形態に係る単語検出部の構成を例示するブロック図である。実施形態に係る指示代名詞ＤＢを例示する図である。実施形態に係る単語検出部による単語検出結果を例示する図である。実施形態に係る情報解析部の構成を例示するブロック図である。実施形態に係る設定値ＤＢを例示する図である。実施形態に係る情報解析部による対象の検索条件を例示する図である。実施形態に係る情報解析部による対象の検索範囲を例示する図である。実施形態に係る情報解析部による情報解析結果を例示する図である。実施形態に係る音声合成部の構成を例示するブロック図である。実施形態に係る音声合成部により生成されるテキストを例示する図である。実施形態に係る音声処理装置における音声処理を例示するフローチャートである。実施形態に係る単語検出部における単語検出処理を例示するフローチャートである。実施形態に係る情報解析部における情報解析処理を例示するフローチャートである。実施形態に係る音声合成部における音声合成処理を例示するフローチャートである。

以下、実施形態について図面を参照して説明する。
図１は、音声処理装置１の構成を例示するブロック図である。音声処理装置１は、話者が発した指示代名詞の指す対象を具体化することで、視覚に依存しない表現を聴衆に伝えるための装置である。例えば、話者は、プレゼンテーションの発表者である。
音声処理装置１は、制御ユニット１１、記憶装置１２、音声入力装置１３及び通信部１４を備える。

制御ユニット１１は、音声処理装置１の各要素を制御する。制御ユニット１１は、プロセッサ１１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３を備える。プロセッサ１１１は、音声処理装置１の各要素を制御する。例えば、プロセッサ１１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。プロセッサ１１１は、ＲＯＭ１１２または記憶装置１２が記憶するプログラムを実行することにより各種の処理を実行する。ＲＯＭ１１２は、プロセッサ１１１が実行するプログラムあるいは制御データなどを記憶する。ＲＡＭ１１３は、ワーキングメモリである。

記憶装置１２は、書換え可能な不揮発性のメモリである。例えば、記憶装置１２は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）またはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などで構成されている。記憶装置１２は、プロセッサ１１１が実行するプログラムおよび制御データなどを記憶する。

音声入力装置１３は、話者が発した音声を入力する要素である。音声入力装置１３は、話者が発した音声を電気信号に変換する。例えば、音声入力装置１３は、マイクを含む。

通信部１４は、音声処理装置１と他の装置とを通信させるためのインタフェースである。通信部１４は、音声処理装置１とＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）２との間でデータを通信するためのインタフェースを備える。例えば、通信部１４は、ＰＣ２から画像データ及びポインタの位置を示すデータを受ける。画像データは、スクリーンに現在投影されている画像のデータである。例えば、画像データは、プレゼンテーション用の資料のデータである。画像データは、画像を構成する文字のテキストデータを含んでいてもよい。例えば、ポインタの位置を示すデータは、ＰＣ２に接続されているマウスの移動に連動するポインタの座標値を示すデータである。ポインタは、カーソルということもできる。音声処理装置１とＰＣ２との間で通信するためのインタフェースは、有線通信インタフェースであっても、無線通信インタフェースであってもよい。

さらに、通信部１４は、音声処理装置１とヘッドフォン３との間で音声を通信するためのインタフェースを備える。音声は、音声処理装置１で再生される。ヘッドフォン３は、音声出力装置の一例である。音声処理装置１とヘッドフォン３との間で通信するためのインタフェースは、有線通信インタフェースであっても、無線通信インタフェースであってもよい。

図２は、音声処理装置１の制御ユニット１１に実装される構成を例示するブロック図である。
制御ユニット１１は、ＲＯＭ１１２または記憶装置１２が記憶するプログラムを実行することにより、以下の各部を実装する。制御ユニット１１は、単語検出部１０１、情報解析部１０２及び音声合成部１０３を備える。

単語検出部１０１は、話者の音声データから予め定められた文字列を示すデータを検出するように構成されている。予め定められた文字列は、指示代名詞である。単語検出部１０１の構成については後述する。単語検出部１０１は、処理結果である単語検出結果を情報解析部１０２へ出力する。単語検出結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ及び指示代名詞の種別を示すデータを含む。

情報解析部１０２は、単語検出部１０１からの単語検出結果の受け取りに応じて動作する。情報解析部１０２は、画像から指示代名詞の指す対象を検出するように構成されている。例えば、指示代名詞の指す対象は、単語または文などの文字列である。情報解析部１０２の構成については後述する。情報解析部１０２は、処理結果である情報解析結果を音声合成部１０３へ出力する。情報解析結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータ及び指示代名詞の指す対象を示す判読情報を含む。

音声合成部１０３は、情報解析部１０２からの情報解析結果の受け取りに応じて動作する。音声合成部１０３は、指示代名詞が対象を指すことを示す音声データを生成するように構成されている。音声合成部１０３の構成については後述する。

単語検出部１０１の構成について説明する。
図３は、単語検出部１０１の構成を例示するブロック図である。
単語検出部１０１は、音声入力部１０１１、音声認識部１０１２、結果照合部１０１３及び送出部１０１４を備える。

音声入力部１０１１は、音声入力装置１３を介して話者の音声の電気信号を取り込む。例えば、音声入力部１０１１は、話者の音声の電気信号を常時取り込む。音声入力部１０１１は、話者の音声の電気信号をデジタル化することで、話者の音声データを取得する。なお、音声入力部１０１１は、話者の音声データを取得するので、取得部ということもできる。音声入力部１０１１は、話者の音声データを音声認識部１０１２へ出力する。

音声認識部１０１２は、音声入力部１０１１から音声データを受け取る。音声認識部１０１２は、音声データに基づいて、話者の音声を認識する。例えば、音声認識部１０１２は、音声データをテキストデータに変換（文字化）することで、話者の音声を認識する。音声認識部１０１２は、話者の音声のテキストデータを含む認識結果を結果照合部１０１３へ出力する。

結果照合部１０１３は、音声認識部１０１２から認識結果を受け取る。結果照合部１０１３は、認識結果に含まれる話者の音声のテキストデータに基づいて、以下に例示するように、指示代名詞を示すデータ及び指示代名詞の種別を検出する。結果照合部１０１３は、記憶装置１２に記憶されている指示代名詞ＤＢ（ｄａｔａｂａｓｅ）１２１を参照する。指示代名詞ＤＢ１２１は、音声データから検出する指示代名詞と、指示代名詞の種別を対応付けている。種別は、指示代名詞の指す対象の近さに応じた近称、中称または遠称の何れかの分類を示す。指示代名詞ＤＢ１２１の例については後述する。結果照合部１０１３は、認識結果を指示代名詞ＤＢ１２１と照合し、話者の音声のテキストデータから、指示代名詞ＤＢ１２１に含まれる指示代名詞を示すデータを検出（確定）する。このように、結果照合部１０１３は、音声データから指示代名詞を示すデータを検出する第１の検出部１０１３１を備える。さらに、結果照合部１０１３は、指示代名詞ＤＢ１２１を参照し、話者の音声のテキストデータから検出した指示代名詞の種別を検出（確定）する。このように、結果照合部１０１３は、指示代名詞の種別を検出する第２の検出部１０１３２を備える。

結果照合部１０１３は、単語検出結果を送出部１０１４へ出力する。単語検出結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ及び指示代名詞の種別を示すデータを含む。例えば、指示代名詞の検出を示すデータは、話者の音声のテキストデータにおける指示代名詞と一致する部分の存在に応じて、検出したこと（正の結果）を示す。単語検出結果の例については後述する。結果照合部１０１３は、単語検出結果を送出部１０１４へ出力する。

送出部１０１４は、結果照合部１０１３から単語検出結果を受け取る。送出部１０１４は、単語検出結果を情報解析部１０２へ送出する。

上述の指示代名詞ＤＢ１２１について説明する。
図４は、記憶装置１２に記憶されている指示代名詞ＤＢ１２１を例示する図である。

指示代名詞ＤＢ１２１は、「表層」及び「分類」を属性とするデータベースである。「表層」は、指示代名詞を示す。例えば、指示代名詞は、「これ」、「ここ」など予め登録されている。「分類」は、指示代名詞の種別を示す。種別は、近称、中称または遠称の何れかである。これにより、指示代名詞ＤＢ１２１は、指示代名詞と、指示代名詞の種別を対応付けている。なお、図４に示す指示代名詞は例示であり、指示代名詞ＤＢ１２１は、他の指示代名詞を管理していてもよい。

上述の単語検出結果について説明する。
図５は、単語検出部１０１による単語検出結果を例示する図である。図５は、３つの異なる単語検出結果を示す。例えば、単語検出結果は、指示代名詞の検出を示すデータとして「検出」を示すデータ、指示代名詞を示すデータとして「これ」を示すデータ及び指示代名詞の種別を示すデータとして「近称」を示すデータを含む。他の２つの例についても同様である。

情報解析部１０２の構成について説明する。

図６は、情報解析部１０２の構成を例示するブロック図である。

情報解析部１０２は、ポイント検出部１０２１、情報読解部１０２２及びデータ出力部１０２３を備える。

ポイント検出部１０２１は、以下に例示するように、画像におけるポイント位置を検出する。ポイント位置は、画像における話者が指し示す位置である。まず、ポイント検出部１０２１は、単語検出部１０１からの単語検出結果の受け取りに応じて動作を開始する。次に、ポイント検出部１０２１は、通信部１４を介して、ＰＣ２から画像データ及びポインタの位置を示すデータを取得する。次に、ポイント検出部１０２１は、ポインタの位置を示すデータに基づいて、画像データに対応する画像におけるポイント位置を検出（確定）する。ポイント位置は、画像におけるポインタの現在の座標値である。ポイント検出部１０２１は、画像データ及びポイント位置を示すデータを情報読解部１０２２へ出力する。なお、ポイント検出部１０２１は、第３の検出部ともいう。

情報読解部１０２２は、以下に例示するように、指示代名詞の種別及びポイント位置に基づいて、画像から指示代名詞の指す対象を検出（確定）する。情報読解部１０２２は、画像から指示代名詞の指す対象を検出するので、第４の検出部ということもできる。まず、情報読解部１０２２は、単語検出部１０１から単語検出結果を受け取る。情報読解部１０２２は、ポイント検出部１０２１から画像データ及びポイント位置を示すデータを受け取る。次に、情報読解部１０２２は、記憶装置１２に記憶されている設定値ＤＢ１２２を参照し、単語検出結果に含まれる指示代名詞の種別を示すデータに対応する検索範囲を確定する。検索範囲は、画像から指示代名詞の指す対象を検出するための範囲である。設定値ＤＢ１２２は、指示代名詞の種別と、検索範囲を対応付けている。検索範囲は、指示代名詞の種別に応じて異なる。設定値ＤＢ１２２の例については後述する。次に、情報読解部１０２２は、ポイント位置を示すデータ及び指示代名詞の種別に応じた検索範囲に基づいて、ポイント位置及び検索範囲を含む検索条件を設定する。次に、情報読解部１０２２は、検索条件に基づいて、画像データに基づく画像に検索範囲を設定する。次に、情報読解部１０２２は、画像から、検索範囲に存在する情報を判読し、指示代名詞の指す対象を検出する。

例えば、情報読解部１０２２は、指示代名詞の種別に応じて、ポイント位置を中心とした指示代名詞の指す対象を検出する検索範囲を変更する。これは、話者がプレゼンテーションを行う際にポイント位置と対象の位置との距離感を把握した上で、対象を指す指示代名詞を使い分けるからである。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に応じて変わる傾向にある。この例では、情報読解部１０２２は、画像から、指示代名詞の種別に応じた検索範囲に存在する指示代名詞の指す対象を検出する。

より具体的には、情報読解部１０２２は、指示代名詞の種別が近称、中称、遠称の順にポイント位置よりも離れた位置に検索範囲を設定する。これは、話者がプレゼンテーションを行う際にポイント位置と対象の位置との距離に応じて、対象を指す指示代名詞を近称、中称、遠称の順に使い分けるからである。つまり、指示代名詞の指す対象の位置は、近称、中称、遠称の順にポイント位置よりも離れる傾向にある。この例では、情報読解部１０２２は、近称、中称、遠称の順にポイント位置よりも離れた位置に存在する対象を検出する。

情報読解部１０２２は、ポイント位置を中心とした円状に検索範囲を設定することが好ましい。これは、話者がプレゼンテーションを行う際にポイント位置を中心とした何れの方向に位置する対象についても指示代名詞を使うからである。話者は、ポイント位置を中心とした第１の方向に位置する対象について指示代名詞を使うが、第１の方向とは異なる第２の方向に位置する対象について指示代名詞を使わないといったことはない。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に依らずポイント位置を中心とした円状の範囲の何れの位置にも存在する可能性がある。この例では、指示代名詞の種別が近称である場合、情報読解部１０２２は、ポイント位置を中心とした円状の検索範囲の中央部分から指示代名詞の指す対象を検出することが好ましい。これは、近称に対応する検索範囲がポイント位置の周辺の狭い範囲であり、近称の指示代名詞の指す対象がポイント位置に存在する可能性が高いからである。指示代名詞の種別が中称である場合、情報読解部１０２２は、ポイント位置を中心とした円状の検索範囲の境界近傍の領域から指示代名詞の指す対象を検出することが好ましい。例えば、境界近傍の領域は、検索範囲からポイント位置に近づく方向に予め決められた距離内に属する領域である。これは、中称の指示代名詞の指す対象がポイント位置に存在する可能性は低く、ポイント位置から離れた検索範囲の境界近傍の領域に存在する可能性が高いからである。指示代名詞の種別が遠称である場合、情報読解部１０２２は、ポイント位置を中心とした円状の検索範囲の境界近傍の領域から指示代名詞の指す対象を検出することが好ましい。例えば、境界近傍の領域は、検索範囲からポイント位置に近づく方向に予め決められた距離内に属する領域である。これは、遠称の指示代名詞の指す対象がポイント位置に存在する可能性は低く、ポイント位置から離れた検索範囲の境界近傍の領域に存在する可能性が高いからである。

情報読解部１０２２は、情報解析結果を生成する。情報解析結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータ及び指示代名詞の指す対象を示す判読情報を含む。指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータは、単語検出部１０１からの単語検出結果に含まれるデータである。判読情報は、情報読解部１０２２によって検索される指示代名詞の指す対象を示す結果データを格納する。情報読解部１０２２は、指示代名詞の指す対象の検索成功に応じて、判読情報に指示代名詞の指す対象を示す結果データを格納する。他方、情報読解部１０２２は、指示代名詞の指す対象の検索失敗に応じて、判読情報を初期値のまま維持する。情報読解部１０２２は、情報解析結果をデータ出力部１０２３へ出力する。

データ出力部１０２３は、情報読解部１０２２から情報解析結果を受け取る。データ出力部１０２３は、情報解析結果を音声合成部１０３へ送出する。

上述の設定値ＤＢ１２２について説明する。
図７は、設定値ＤＢ１２２を例示する図である。
設定値ＤＢ１２２は、「指示代名詞」及び「検索範囲」を属性とするデータベースである。「指示代名詞」は、近称、中称または遠称の何れかの指示代名詞の種別を示す。「検索範囲」は、ポイント位置を中心とした円状の検索範囲を設定するための半径Ｒを示す。半径Ｒは、近称、中称、遠称の順に大きくなる。これにより、指示代名詞ＤＢ１２１は、指示代名詞の種別と、検索範囲を対応付けている。

上述の情報読解部１０２２による対象の検索条件について説明する。
図８は、対象の検索条件を例示する図である。
検索条件は、ポイント位置及び指示代名詞の種別に応じた検索範囲を含む。例えば、ポイント位置は、（１００，５００）である。検索範囲は、Ｒ＝１０である。情報読解部１０２２は、検索条件に応じて、画像データに基づく画像から、検索範囲内に存在する指示代名詞の指す対象を検索する。情報読解部１０２２は、指示代名詞の指す対象の検索成功に応じて、判読情報に指示代名詞の指す対象を示す結果データを格納する。

上述の情報読解部１０２２による対象の検索範囲について説明する。
図９は、画像データに基づく画像及び対象の検索範囲を例示する図である。画像は、プレゼンテーションのサンプル画面である。ポイント位置Ｐは、単語「ＣＣＣ」と重なる位置にあるとする。近称に対応する検索範囲Ａ１、中称に対応する検索範囲Ａ２及び遠称に対応する検索範囲Ａ３は、ポイント位置Ｐを中心とした互いに異なる円状の範囲である。検索範囲Ａ１は、ポイント位置Ｐの周辺の狭い範囲である。中称に対応する検索範囲Ａ２は、ポイント位置Ｐを中心として、近称に対応する検索範囲Ａ１よりも半径の大きな円状の範囲である。遠称に対応する検索範囲Ａ３は、ポイント位置Ｐを中心として、中称に対応する検索範囲Ａ２よりも半径の大きな円状の範囲である。

指示代名詞の種別が近称である場合、情報読解部１０２２は、画像に検索範囲Ａ１を設定する。情報読解部１０２２は、検索範囲Ａ１の中央部分から指示代名詞の指す対象を検出する。ここでは、情報読解部１０２２は、近称の指示代名詞の指す対象として単語「ＣＣＣ」を検出する。

指示代名詞の種別が中称である場合、情報読解部１０２２は、画像に検索範囲Ａ２を設定する。情報読解部１０２２は、検索範囲Ａ２の境界近傍の領域から指示代名詞の指す対象を検出する。ここでは、情報読解部１０２２は、中称の指示代名詞の指す対象として単語「ＢＢＢ」を検出する。

指示代名詞の種別が遠称である場合、情報読解部１０２２は、画像に検索範囲Ａ３を設定する。情報読解部１０２２は、検索範囲Ａ３の境界近傍の領域から指示代名詞の指す対象を検出する。単語「ＡＡＡ」及び単語「ＤＤＤ」は、検索範囲Ａ３の境界近傍の領域に存在している。そのため、単語「ＡＡＡ」及び単語「ＤＤＤ」は、遠称の指示代名詞の指す対象の候補である。情報読解部１０２２は、複数の候補の中から予め定められた基準に従い、遠称の指示代名詞の指す対象として単語「ＡＡＡ」または単語「ＤＤＤ」の何れかを検出する。

一例では、予め定められた基準は、複数の候補のうち、強調文字列の候補を優先する基準である。強調文字列は、聴衆の視覚による認識され易さによって任意に設定可能である。例えば、強調文字列は、フォントサイズの大きさで決まってもよい。情報読解部１０２２は、複数の候補のうちフォントサイズの最も大きい候補を指示代名詞の指す対象として検出することができる。例えば、強調文字列は、フォントの色で決まってもよい。画像が白背景であれば、情報読解部１０２２は、黒色以外の色（例えば赤色など）で表示される候補を指示代名詞の指す対象として検出することができる。画像が白背景であれば、情報読解部１０２２は、白色以外の色（例えば赤色など）で表示される候補を指示代名詞の指す対象として検出することができる。

別の例では、予め定められた基準は、複数の候補のうち、指示代名詞の前後の文脈に沿う候補を優先する基準である。この例では、情報読解部１０２２は、話者の音声のテキストデータに基づく指示代名詞の前後の文脈と、画像から検出された複数の候補の前後の文脈を比較する。情報読解部１０２２は、複数の候補のうち、指示代名詞の前後の文脈に沿う候補を指示代名詞の指す対象として検出する。例えば、話者の音声のテキストデータに基づく指示代名詞「あちら」の後の文脈が、「の構造」であったとする。情報読解部１０２２は、画像から検出された複数の候補のうち、指示代名詞「あちら」の後の「の構造」に沿う単語「ＡＡＡ」を指示代名詞「あちら」の指す対象として検出する。

なお、基準は、上述の例に限定されるものではない。

上述の情報解析部１０２による情報解析結果について説明する。
図１０は、情報解析結果を例示する図である。
情報解析結果は、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「ＣＣＣ」を含む。

音声合成部１０３の構成について説明する。

図１１は、音声合成部１０３の構成を例示するブロック図である。

音声合成部１０３は、テキスト生成部１０３１、波形生成部１０３２及び音声出力部１０３３を備える。

テキスト生成部１０３１は、情報解析部１０２から情報解析結果を受け取りに応じて動作を開始する。テキスト生成部１０３１は、情報解析結果に基づいて、指示代名詞が対象を指すことを示すテキスト（文）を生成する。指示代名詞が対象を指すことを示すテキストの生成例については後述する。テキスト生成部１０３１は、指示代名詞が対象を指すことを示すテキストのデータを波形生成部１０３２へ出力する。

波形生成部１０３２は、指示代名詞が対象を指すことを示すテキストのデータをテキスト生成部１０３１から受け取る。波形生成部１０３２は、指示代名詞が対象を指すことを示すテキストを音声データ（音声波形）に変換する。これにより、波形生成部１０３２は、指示代名詞が対象を指すことを示す音声データを生成する。波形生成部１０３２は、指示代名詞が対象を指すことを示す音声データを音声出力部１０３３へ出力する。

音声出力部１０３３は、指示代名詞が対象を指すことを示す音声データを波形生成部１０３２から受け取る。音声出力部１０３３は、音声データに基づいて音声を再生し、指示代名詞が対象を指すことを示す音声を出力する。音声出力部１０３３は、通信部１４を介して、指示代名詞が対象を指すことを示す音声をヘッドフォン３へ出力する。これにより、聴衆は、スクリーンに現在投影されている画像を見ていなくても、話者が発した指示代名詞の指す対象を認識することができる。

上述のテキスト生成部１０３１による指示代名詞が対象を指すことを示すテキストの生成例について説明する。
図１２は、テキスト生成部１０３１により生成されるテキストを例示する図である。
ここで、情報解析結果は、図１０に示すように、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「ＣＣＣ」を含むものとする。テキスト生成部１０３１は、指示代名詞を示すデータである「これ」及び判読情報である「ＣＣＣ」を参照し、≪「これ」が指すのは、「ＣＣＣ」です」≫などの指示代名詞が対象を指すことを示すテキストを生成する。ここに示すテキストは例示であり、指示代名詞が対象を指すことを示すテキストであれば限定されない。

次に、音声処理装置１における音声処理について説明する。

図１３は、音声処理装置１における音声処理を例示するフローチャートである。

音声処理装置１は、音声入力装置１３を介して、話者の音声を単語検出部１０１へ常時入力する（Ａｃｔ１０１）。
単語検出部１０１が動作していない場合（Ａｃｔ１０２、Ｎｏ）、音声処理装置１は、Ａｃｔ１０１の動作を繰り返す。単語検出部１０１が動作している場合（Ａｃｔ１０２、Ｙｅｓ）、単語検出部１０１は、音声データから指示代名詞を示すデータを検出（確定）する（Ａｃｔ１０３）。単語検出部１０１は、指示代名詞を示すデータを含む単語検出結果を情報解析部１０２へ送出する。

情報解析部１０２が動作していない場合（Ａｃｔ１０４、Ｎｏ）、音声処理装置１は、Ａｃｔ１０１の動作を繰り返す。情報解析部１０２が動作している場合（Ａｃｔ１０４、Ｙｅｓ）、情報解析部１０２は、単語検出部１０１からの単語検出結果の受け取りに応じて動作する。情報解析部１０２は、画像から指示代名詞の指す対象を検出し、情報解析結果を音声合成部１０３へ出力する。

音声合成部１０３は、情報解析部１０２からの情報解析結果の受け取りに応じて動作する（Ａｃｔ１０５）。音声合成部１０３は、指示代名詞が対象を指すことを示す音声データを生成する。

次に、単語検出部１０１における音声処理について説明する。
図１４は、単語検出部１０１における単語検出処理を例示するフローチャートである。

音声入力部１０１１は、例示したように、音声入力装置１３を介して話者の音声の電気信号を取り込む（Ａｃｔ２０１）。音声入力部１０１１は、話者の音声データを音声認識部１０１２へ出力する。

音声認識部１０１２は、例示したように、話者の音声データに基づいて、話者の音声を認識する（Ａｃｔ２０２）。音声認識部１０１２は、認識結果を結果照合部１０１３へ出力する。

結果照合部１０１３は、例示したように、認識結果を指示代名詞ＤＢ１２１と照合する（Ａｃｔ２０３）。指示代名詞を示すデータが検出されない場合（Ａｃｔ２０３、Ｎｏ）、音声入力部１０１１は、Ａｃｔ２０１の動作を繰り返す。指示代名詞を示すデータが検出された場合（Ａｃｔ２０３、Ｙｅｓ）、送出部１０１４は、例示したように、指示代名詞を示すデータを含む単語検出結果を情報解析部１０２へ送出する（Ａｃｔ２０４）。

次に、情報解析部１０２における音声処理について説明する。

図１５は、情報解析部１０２における情報解析処理を例示するフローチャートである。

情報解析部１０２は、単語検出部１０１からの単語検出結果の受け取りに応じて、判読情報に格納されている結果データを初期化する（Ａｃｔ３０１）。ポイント検出部１０２１は、例示したように、画像におけるポイント位置を検出する（Ａｃｔ３０２）。ポイント検出部１０２１は、画像データ及びポイント位置を示すデータを情報読解部１０２２へ出力する。

情報読解部１０２２は、例示したように、検索範囲に存在する情報を判読する（Ａｃｔ３０３）。Ａｃｔ３０３では、情報読解部１０２２は、単語検出結果、画像データ及びポイント位置を示すデータに基づいて、画像から、検索範囲に存在する情報を判読する。

情報読解部１０２２は、例示したように、検索範囲で指示代名詞の指す対象を示す判読情報を検出する（Ａｃｔ３０４）。情報読解部１０２２が判読情報を検出しない場合（Ａｃｔ３０４、Ｎｏ）、情報解析部１０２は、情報解析処理を終了する。情報読解部１０２２が判読情報を検出した場合（Ａｃｔ３０４、Ｙｅｓ）、情報読解部１０２２は、例示したように、判読情報に指示代名詞の指す対象を示す結果データを格納する（Ａｃｔ３０５）。データ出力部１０２３は、例示したように、結果データが格納された判読情報を含む情報解析結果を音声合成部１０３へ送出する（Ａｃｔ３０６）。

次に、音声合成部１０３における音声処理について説明する。

テキスト生成部１０３１は、例示したように情報解析部１０２からの情報解析結果に基づいて、指示代名詞が対象を指すことを示すテキストを生成する（Ａｃｔ４０１）。テキスト生成部１０３１は、テキストのデータを波形生成部１０３２へ出力する。

波形生成部１０３２は、例示したように、テキストのデータに基づいて、指示代名詞が対象を指すことを示す音声データ（音声波形）を生成する（Ａｃｔ４０２）。波形生成部１０３２は、音声データを音声出力部１０３３へ出力する。

音声出力部１０３３は、例示したように、音声データに基づいて音声を再生し、指示代名詞が対象を指すことを示す音声を出力する（Ａｃｔ４０３）。

本実施形態によれば、音声処理装置１は、指示代名詞の種別及びポイント位置に基づいて、画像から指示代名詞の指す対象を検出し、指示代名詞が対象を指すことを示す音声データを生成することができる。これにより、音声処理装置１は、話者の発した指示代名詞が指す対象（内容）を音声出力することで、視覚に依存せず、話者の意図を全聴衆に伝えることができる。これにより、聴衆は、スクリーンに現在投影されている画像を見ていなくても、話者が発した指示代名詞の指す対象を認識することができる。

さらに、本実施形態によれば、音声処理装置１は、指示代名詞の種別に応じて、ポイント位置を中心とした検索範囲を変更することができる。話者は、プレゼンテーションを行う際に、ポイント位置と対象の位置との距離感を把握した上で、対象を指す指示代名詞を使い分ける。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に応じて変わる傾向にある。そのため、音声処理装置１は、指示代名詞の種別に応じて検索範囲を変更することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。

さらに、本実施形態によれば、音声処理装置１は、近称、中称、遠称の順にポイント位置よりも離れた位置に検索範囲を設定することができる。話者は、プレゼンテーションを行う際に、ポイント位置と対象の位置との距離に応じて、対象を指す指示代名詞を近称、中称、遠称の順に使い分ける。つまり、指示代名詞の指す対象の位置は、近称、中称、遠称の順にポイント位置よりも離れる傾向にある。そのため、音声処理装置１は、近称、中称、遠称に応じて検索範囲を設定することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。

さらに、本実施形態によれば、音声処理装置１は、ポイント位置を中心とした円状に検索範囲を設定することができる。話者は、プレゼンテーションを行う際に、ポイント位置を中心とした何れの方向に位置する対象についても指示代名詞を使うからである。話者は、ポイント位置を中心とした第１の方向に位置する対象について指示代名詞を使うが、第１の方向とは異なる第２の方向に位置する対象について指示代名詞を使わないといったことはない。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に依らずポイント位置を中心とした円状の範囲の何れの位置にも存在する可能性がある。そのため、音声処理装置１は、検索範囲を円状に設定することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。

なお、上記実施形態は、以下のように変形することができる。
１つ目の変形例について説明する。ポイント検出部１０２１は、ＰＣ２からのポインタの位置を示すデータに基づいて画像におけるポイント位置を検出しているが、これに限定されない。
一例では、ポイント検出部１０２１は、スクリーンに現在投影されている画像のうち、話者がレーザポインタで指し示すレーザ光の位置をポイント位置として検出してもよい。この例では、スクリーンを撮影するカメラを用意する。ポイント検出部１０２１は、カメラで撮影されたデータを取得する。ポイント検出部１０２１は、種々の画像解析技術を用い、画像におけるレーザ光の位置を求める。ポイント検出部１０２１は、レーザ光の位置をポイント位置として検出する。これに代えて、３次元センサを搭載したレーザポインタを用意してもよい。ポイント検出部１０２１は、レーザポインタに搭載されている３次元センサのセンシングデータを取得する。ポイント検出部１０２１は、種々の解析技術を用い、３次元センサのセンシングデータに基づいて、話者がレーザポインタで指し示す方向を求める。ポイント検出部１０２１は、話者がレーザポインタで指し示す方向に基づいて画像におけるレーザ光の位置を推定し、レーザ光の位置をポイント位置として検出する。

別の例では、ポイント検出部１０２１は、スクリーンに現在投影されている画像のうち、話者が見ている位置をポイント位置として検出してもよい。この例では、スクリーン及び話者を撮影するカメラを用意する。ポイント検出部１０２１は、カメラで撮影されたデータを取得する。ポイント検出部１０２１は、種々の画像解析技術を用い、スクリーンに現在投影されている画像のうち、話者が見ている位置を推定する。ポイント検出部１０２１は、ポイント検出部１０２１は、話者が見ている位置をポイント位置として検出する。

２つ目の変形例について説明する。音声処理装置１は、制御ユニット１１に単語検出部１０１、情報解析部１０２及び音声合成部１０３を実装しているが、これに限定されない。音声処理装置１は、単語検出部１０１と同様に動作するプロセッサを備える単語検出器、情報解析部１０２と同様に動作するプロセッサを備える情報解析器及び音声合成部１０３と同様に動作するプロセッサを備える音声合成器を別個とハードウェアとして備えていてもよい。この例では、音声処理装置１は、単語検出器、情報解析器及び音声合成器を制御するプロセッサを備えていてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…音声処理装置、２…ＰＣ、３…ヘッドフォン、１１…制御ユニット、１２…記憶装置、１３…音声入力装置、１４…通信部、１０１…単語検出部、１０２…情報解析部、１０３…音声合成部、１１１…プロセッサ、１１２…ＲＯＭ、１１３…ＲＡＭ、１２１…指示代名詞ＤＢ、１２２…設定値ＤＢ、１０１１…音声入力部、１０１２…音声認識部、１０１３…結果照合部、１０１４…送出部、１０２１…ポイント検出部、１０２２…情報読解部、１０２３…データ出力部、１０３１…テキスト生成部、１０３２…波形生成部、１０３３…音声出力部、Ｐ…ポイント位置、Ａ１…検索範囲、Ａ２…検索範囲、Ａ３…検索範囲。

Claims

話者の音声データを取得する取得部と、
前記音声データから指示代名詞を示すデータを検出する第１の検出部と、
前記指示代名詞の種別を検出する第２の検出部と、
画像におけるポイント位置を検出する第３の検出部と、
前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する第４の検出部と、
前記指示代名詞が前記対象を指すことを示す音声データを生成する生成部と、
を備える音声処理装置。
前記第４の検出部は、前記指示代名詞の種別に応じて、前記ポイント位置を中心とした前記指示代名詞の指す対象を検出する範囲を変更する、請求項１に記載の音声処理装置。
前記第２の検出部は、前記指示代名詞の種別が近称、中称または遠称の何れなのかを検出し、
前記第４の検出部は、近称、中称、遠称の順に前記ポイント位置よりも離れた位置に前記範囲を設定する、請求項２に記載の音声処理装置。
前記第４の検出部は、前記ポイント位置を中心とした円状に前記範囲を設定する、請求項３に記載の音声処理装置。
話者の音声データを取得し、
前記音声データから指示代名詞を示すデータを検出し、
前記指示代名詞の種別を検出し、
画像におけるポイント位置を検出し、
前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出し、
前記指示代名詞が前記対象を指すことを示す音声データを生成する、
音声処理方法。