JP2019203922A - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
JP2019203922A
JP2019203922A JP2018097103A JP2018097103A JP2019203922A JP 2019203922 A JP2019203922 A JP 2019203922A JP 2018097103 A JP2018097103 A JP 2018097103A JP 2018097103 A JP2018097103 A JP 2018097103A JP 2019203922 A JP2019203922 A JP 2019203922A
Authority
JP
Japan
Prior art keywords
pronoun
unit
indicating
point position
detection unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018097103A
Other languages
English (en)
Other versions
JP7068923B2 (ja
Inventor
直樹 関根
Naoki Sekine
直樹 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2018097103A priority Critical patent/JP7068923B2/ja
Publication of JP2019203922A publication Critical patent/JP2019203922A/ja
Application granted granted Critical
Publication of JP7068923B2 publication Critical patent/JP7068923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】話者が発する指示代名詞の指す対象を検出することを可能にする。【解決手段】実施形態に係る音声処理装置は、取得部と、第1の検出部と、第2の検出部と、第3の検出部と、第4の検出部と、生成部とを備える。前記取得部は、話者の音声データを取得する。前記第1の検出部は、前記音声データから指示代名詞を示すデータを検出する。前記第2の検出部は、前記指示代名詞の種別を検出する。前記第3の検出部は、画像におけるポイント位置を検出する。前記第4の検出部は、前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する。前記生成部は、前記指示代名詞が前記対象を指すことを示す音声データを生成する。【選択図】図9

Description

本発明の実施形態は、音声処理装置及び音声処理方法に関する。
近年、電子データの投影による視覚を前提としたプレゼンテーションが一般化している。他方、多様な人材を活かす戦略、すなわちダイバーシティにより、聴衆の事情も幅広い。例えば、聴覚障がい者へは、手話通訳の支援が入ることもあるが、視覚障がい者は、発表者の声でしか情報を得られない場合が多い。
特開2011−86123号公報
しかしながら、発表者は、指示代名詞を用いてプレゼンテーションを行うことが多い。視覚障がい者は、指示代名詞の指す対象が分からなければ、発表者の意図が伝わらないことがある。また、手元資料を見ている聴衆は、発表者が発する指示代名詞が何を指しているのか分からないことがある。
本発明の実施形態が解決しようとする課題は、話者が発する指示代名詞の指す対象を検出することを可能にする音声処理装置及び音声処理方法を提供することである。
実施形態に係る音声処理装置は、取得部と、第1の検出部と、第2の検出部と、第3の検出部と、第4の検出部と、生成部とを備える。前記取得部は、話者の音声データを取得する。前記第1の検出部は、前記音声データから指示代名詞を示すデータを検出する。前記第2の検出部は、前記指示代名詞の種別を検出する。前記第3の検出部は、画像におけるポイント位置を検出する。前記第4の検出部は、前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する。前記生成部は、前記指示代名詞が前記対象を指すことを示す音声データを生成する。
実施形態に係る音声処理装置の構成を例示するブロック図である。 実施形態に係る音声処理装置の制御ユニットに実装される構成を例示するブロック図である。 実施形態に係る単語検出部の構成を例示するブロック図である。 実施形態に係る指示代名詞DBを例示する図である。 実施形態に係る単語検出部による単語検出結果を例示する図である。 実施形態に係る情報解析部の構成を例示するブロック図である。 実施形態に係る設定値DBを例示する図である。 実施形態に係る情報解析部による対象の検索条件を例示する図である。 実施形態に係る情報解析部による対象の検索範囲を例示する図である。 実施形態に係る情報解析部による情報解析結果を例示する図である。 実施形態に係る音声合成部の構成を例示するブロック図である。 実施形態に係る音声合成部により生成されるテキストを例示する図である。 実施形態に係る音声処理装置における音声処理を例示するフローチャートである。 実施形態に係る単語検出部における単語検出処理を例示するフローチャートである。 実施形態に係る情報解析部における情報解析処理を例示するフローチャートである。 実施形態に係る音声合成部における音声合成処理を例示するフローチャートである。
以下、実施形態について図面を参照して説明する。
図1は、音声処理装置1の構成を例示するブロック図である。音声処理装置1は、話者が発した指示代名詞の指す対象を具体化することで、視覚に依存しない表現を聴衆に伝えるための装置である。例えば、話者は、プレゼンテーションの発表者である。
音声処理装置1は、制御ユニット11、記憶装置12、音声入力装置13及び通信部14を備える。
制御ユニット11は、音声処理装置1の各要素を制御する。制御ユニット11は、プロセッサ111、ROM(Read Only Memory)112及びRAM(Random Access Memory)113を備える。プロセッサ111は、音声処理装置1の各要素を制御する。例えば、プロセッサ111は、CPU(Central Processing Unit)である。プロセッサ111は、ROM112または記憶装置12が記憶するプログラムを実行することにより各種の処理を実行する。ROM112は、プロセッサ111が実行するプログラムあるいは制御データなどを記憶する。RAM113は、ワーキングメモリである。
記憶装置12は、書換え可能な不揮発性のメモリである。例えば、記憶装置12は、SSD(Solid State Drive)またはHDD(Hard Disk Drive)などで構成されている。記憶装置12は、プロセッサ111が実行するプログラムおよび制御データなどを記憶する。
音声入力装置13は、話者が発した音声を入力する要素である。音声入力装置13は、話者が発した音声を電気信号に変換する。例えば、音声入力装置13は、マイクを含む。
通信部14は、音声処理装置1と他の装置とを通信させるためのインタフェースである。通信部14は、音声処理装置1とPC(Personal Computer)2との間でデータを通信するためのインタフェースを備える。例えば、通信部14は、PC2から画像データ及びポインタの位置を示すデータを受ける。画像データは、スクリーンに現在投影されている画像のデータである。例えば、画像データは、プレゼンテーション用の資料のデータである。画像データは、画像を構成する文字のテキストデータを含んでいてもよい。例えば、ポインタの位置を示すデータは、PC2に接続されているマウスの移動に連動するポインタの座標値を示すデータである。ポインタは、カーソルということもできる。音声処理装置1とPC2との間で通信するためのインタフェースは、有線通信インタフェースであっても、無線通信インタフェースであってもよい。
さらに、通信部14は、音声処理装置1とヘッドフォン3との間で音声を通信するためのインタフェースを備える。音声は、音声処理装置1で再生される。ヘッドフォン3は、音声出力装置の一例である。音声処理装置1とヘッドフォン3との間で通信するためのインタフェースは、有線通信インタフェースであっても、無線通信インタフェースであってもよい。
図2は、音声処理装置1の制御ユニット11に実装される構成を例示するブロック図である。
制御ユニット11は、ROM112または記憶装置12が記憶するプログラムを実行することにより、以下の各部を実装する。制御ユニット11は、単語検出部101、情報解析部102及び音声合成部103を備える。
単語検出部101は、話者の音声データから予め定められた文字列を示すデータを検出するように構成されている。予め定められた文字列は、指示代名詞である。単語検出部101の構成については後述する。単語検出部101は、処理結果である単語検出結果を情報解析部102へ出力する。単語検出結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ及び指示代名詞の種別を示すデータを含む。
情報解析部102は、単語検出部101からの単語検出結果の受け取りに応じて動作する。情報解析部102は、画像から指示代名詞の指す対象を検出するように構成されている。例えば、指示代名詞の指す対象は、単語または文などの文字列である。情報解析部102の構成については後述する。情報解析部102は、処理結果である情報解析結果を音声合成部103へ出力する。情報解析結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータ及び指示代名詞の指す対象を示す判読情報を含む。
音声合成部103は、情報解析部102からの情報解析結果の受け取りに応じて動作する。音声合成部103は、指示代名詞が対象を指すことを示す音声データを生成するように構成されている。音声合成部103の構成については後述する。
単語検出部101の構成について説明する。
図3は、単語検出部101の構成を例示するブロック図である。
単語検出部101は、音声入力部1011、音声認識部1012、結果照合部1013及び送出部1014を備える。
音声入力部1011は、音声入力装置13を介して話者の音声の電気信号を取り込む。例えば、音声入力部1011は、話者の音声の電気信号を常時取り込む。音声入力部1011は、話者の音声の電気信号をデジタル化することで、話者の音声データを取得する。なお、音声入力部1011は、話者の音声データを取得するので、取得部ということもできる。音声入力部1011は、話者の音声データを音声認識部1012へ出力する。
音声認識部1012は、音声入力部1011から音声データを受け取る。音声認識部1012は、音声データに基づいて、話者の音声を認識する。例えば、音声認識部1012は、音声データをテキストデータに変換(文字化)することで、話者の音声を認識する。音声認識部1012は、話者の音声のテキストデータを含む認識結果を結果照合部1013へ出力する。
結果照合部1013は、音声認識部1012から認識結果を受け取る。結果照合部1013は、認識結果に含まれる話者の音声のテキストデータに基づいて、以下に例示するように、指示代名詞を示すデータ及び指示代名詞の種別を検出する。結果照合部1013は、記憶装置12に記憶されている指示代名詞DB(database)121を参照する。指示代名詞DB121は、音声データから検出する指示代名詞と、指示代名詞の種別を対応付けている。種別は、指示代名詞の指す対象の近さに応じた近称、中称または遠称の何れかの分類を示す。指示代名詞DB121の例については後述する。結果照合部1013は、認識結果を指示代名詞DB121と照合し、話者の音声のテキストデータから、指示代名詞DB121に含まれる指示代名詞を示すデータを検出(確定)する。このように、結果照合部1013は、音声データから指示代名詞を示すデータを検出する第1の検出部10131を備える。さらに、結果照合部1013は、指示代名詞DB121を参照し、話者の音声のテキストデータから検出した指示代名詞の種別を検出(確定)する。このように、結果照合部1013は、指示代名詞の種別を検出する第2の検出部10132を備える。
結果照合部1013は、単語検出結果を送出部1014へ出力する。単語検出結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ及び指示代名詞の種別を示すデータを含む。例えば、指示代名詞の検出を示すデータは、話者の音声のテキストデータにおける指示代名詞と一致する部分の存在に応じて、検出したこと(正の結果)を示す。単語検出結果の例については後述する。結果照合部1013は、単語検出結果を送出部1014へ出力する。
送出部1014は、結果照合部1013から単語検出結果を受け取る。送出部1014は、単語検出結果を情報解析部102へ送出する。
上述の指示代名詞DB121について説明する。
図4は、記憶装置12に記憶されている指示代名詞DB121を例示する図である。
指示代名詞DB121は、「表層」及び「分類」を属性とするデータベースである。「表層」は、指示代名詞を示す。例えば、指示代名詞は、「これ」、「ここ」など予め登録されている。「分類」は、指示代名詞の種別を示す。種別は、近称、中称または遠称の何れかである。これにより、指示代名詞DB121は、指示代名詞と、指示代名詞の種別を対応付けている。なお、図4に示す指示代名詞は例示であり、指示代名詞DB121は、他の指示代名詞を管理していてもよい。
上述の単語検出結果について説明する。
図5は、単語検出部101による単語検出結果を例示する図である。図5は、3つの異なる単語検出結果を示す。例えば、単語検出結果は、指示代名詞の検出を示すデータとして「検出」を示すデータ、指示代名詞を示すデータとして「これ」を示すデータ及び指示代名詞の種別を示すデータとして「近称」を示すデータを含む。他の2つの例についても同様である。
情報解析部102の構成について説明する。
図6は、情報解析部102の構成を例示するブロック図である。
情報解析部102は、ポイント検出部1021、情報読解部1022及びデータ出力部1023を備える。
ポイント検出部1021は、以下に例示するように、画像におけるポイント位置を検出する。ポイント位置は、画像における話者が指し示す位置である。まず、ポイント検出部1021は、単語検出部101からの単語検出結果の受け取りに応じて動作を開始する。次に、ポイント検出部1021は、通信部14を介して、PC2から画像データ及びポインタの位置を示すデータを取得する。次に、ポイント検出部1021は、ポインタの位置を示すデータに基づいて、画像データに対応する画像におけるポイント位置を検出(確定)する。ポイント位置は、画像におけるポインタの現在の座標値である。ポイント検出部1021は、画像データ及びポイント位置を示すデータを情報読解部1022へ出力する。なお、ポイント検出部1021は、第3の検出部ともいう。
情報読解部1022は、以下に例示するように、指示代名詞の種別及びポイント位置に基づいて、画像から指示代名詞の指す対象を検出(確定)する。情報読解部1022は、画像から指示代名詞の指す対象を検出するので、第4の検出部ということもできる。まず、情報読解部1022は、単語検出部101から単語検出結果を受け取る。情報読解部1022は、ポイント検出部1021から画像データ及びポイント位置を示すデータを受け取る。次に、情報読解部1022は、記憶装置12に記憶されている設定値DB122を参照し、単語検出結果に含まれる指示代名詞の種別を示すデータに対応する検索範囲を確定する。検索範囲は、画像から指示代名詞の指す対象を検出するための範囲である。設定値DB122は、指示代名詞の種別と、検索範囲を対応付けている。検索範囲は、指示代名詞の種別に応じて異なる。設定値DB122の例については後述する。次に、情報読解部1022は、ポイント位置を示すデータ及び指示代名詞の種別に応じた検索範囲に基づいて、ポイント位置及び検索範囲を含む検索条件を設定する。次に、情報読解部1022は、検索条件に基づいて、画像データに基づく画像に検索範囲を設定する。次に、情報読解部1022は、画像から、検索範囲に存在する情報を判読し、指示代名詞の指す対象を検出する。
例えば、情報読解部1022は、指示代名詞の種別に応じて、ポイント位置を中心とした指示代名詞の指す対象を検出する検索範囲を変更する。これは、話者がプレゼンテーションを行う際にポイント位置と対象の位置との距離感を把握した上で、対象を指す指示代名詞を使い分けるからである。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に応じて変わる傾向にある。この例では、情報読解部1022は、画像から、指示代名詞の種別に応じた検索範囲に存在する指示代名詞の指す対象を検出する。
より具体的には、情報読解部1022は、指示代名詞の種別が近称、中称、遠称の順にポイント位置よりも離れた位置に検索範囲を設定する。これは、話者がプレゼンテーションを行う際にポイント位置と対象の位置との距離に応じて、対象を指す指示代名詞を近称、中称、遠称の順に使い分けるからである。つまり、指示代名詞の指す対象の位置は、近称、中称、遠称の順にポイント位置よりも離れる傾向にある。この例では、情報読解部1022は、近称、中称、遠称の順にポイント位置よりも離れた位置に存在する対象を検出する。
情報読解部1022は、ポイント位置を中心とした円状に検索範囲を設定することが好ましい。これは、話者がプレゼンテーションを行う際にポイント位置を中心とした何れの方向に位置する対象についても指示代名詞を使うからである。話者は、ポイント位置を中心とした第1の方向に位置する対象について指示代名詞を使うが、第1の方向とは異なる第2の方向に位置する対象について指示代名詞を使わないといったことはない。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に依らずポイント位置を中心とした円状の範囲の何れの位置にも存在する可能性がある。この例では、指示代名詞の種別が近称である場合、情報読解部1022は、ポイント位置を中心とした円状の検索範囲の中央部分から指示代名詞の指す対象を検出することが好ましい。これは、近称に対応する検索範囲がポイント位置の周辺の狭い範囲であり、近称の指示代名詞の指す対象がポイント位置に存在する可能性が高いからである。指示代名詞の種別が中称である場合、情報読解部1022は、ポイント位置を中心とした円状の検索範囲の境界近傍の領域から指示代名詞の指す対象を検出することが好ましい。例えば、境界近傍の領域は、検索範囲からポイント位置に近づく方向に予め決められた距離内に属する領域である。これは、中称の指示代名詞の指す対象がポイント位置に存在する可能性は低く、ポイント位置から離れた検索範囲の境界近傍の領域に存在する可能性が高いからである。指示代名詞の種別が遠称である場合、情報読解部1022は、ポイント位置を中心とした円状の検索範囲の境界近傍の領域から指示代名詞の指す対象を検出することが好ましい。例えば、境界近傍の領域は、検索範囲からポイント位置に近づく方向に予め決められた距離内に属する領域である。これは、遠称の指示代名詞の指す対象がポイント位置に存在する可能性は低く、ポイント位置から離れた検索範囲の境界近傍の領域に存在する可能性が高いからである。
情報読解部1022は、情報解析結果を生成する。情報解析結果は、指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータ及び指示代名詞の指す対象を示す判読情報を含む。指示代名詞の検出を示すデータ、指示代名詞を示すデータ、指示代名詞の種別を示すデータは、単語検出部101からの単語検出結果に含まれるデータである。判読情報は、情報読解部1022によって検索される指示代名詞の指す対象を示す結果データを格納する。情報読解部1022は、指示代名詞の指す対象の検索成功に応じて、判読情報に指示代名詞の指す対象を示す結果データを格納する。他方、情報読解部1022は、指示代名詞の指す対象の検索失敗に応じて、判読情報を初期値のまま維持する。情報読解部1022は、情報解析結果をデータ出力部1023へ出力する。
データ出力部1023は、情報読解部1022から情報解析結果を受け取る。データ出力部1023は、情報解析結果を音声合成部103へ送出する。
上述の設定値DB122について説明する。
図7は、設定値DB122を例示する図である。
設定値DB122は、「指示代名詞」及び「検索範囲」を属性とするデータベースである。「指示代名詞」は、近称、中称または遠称の何れかの指示代名詞の種別を示す。「検索範囲」は、ポイント位置を中心とした円状の検索範囲を設定するための半径Rを示す。半径Rは、近称、中称、遠称の順に大きくなる。これにより、指示代名詞DB121は、指示代名詞の種別と、検索範囲を対応付けている。
上述の情報読解部1022による対象の検索条件について説明する。
図8は、対象の検索条件を例示する図である。
検索条件は、ポイント位置及び指示代名詞の種別に応じた検索範囲を含む。例えば、ポイント位置は、(100,500)である。検索範囲は、R=10である。情報読解部1022は、検索条件に応じて、画像データに基づく画像から、検索範囲内に存在する指示代名詞の指す対象を検索する。情報読解部1022は、指示代名詞の指す対象の検索成功に応じて、判読情報に指示代名詞の指す対象を示す結果データを格納する。
上述の情報読解部1022による対象の検索範囲について説明する。
図9は、画像データに基づく画像及び対象の検索範囲を例示する図である。画像は、プレゼンテーションのサンプル画面である。ポイント位置Pは、単語「CCC」と重なる位置にあるとする。近称に対応する検索範囲A1、中称に対応する検索範囲A2及び遠称に対応する検索範囲A3は、ポイント位置Pを中心とした互いに異なる円状の範囲である。検索範囲A1は、ポイント位置Pの周辺の狭い範囲である。中称に対応する検索範囲A2は、ポイント位置Pを中心として、近称に対応する検索範囲A1よりも半径の大きな円状の範囲である。遠称に対応する検索範囲A3は、ポイント位置Pを中心として、中称に対応する検索範囲A2よりも半径の大きな円状の範囲である。
指示代名詞の種別が近称である場合、情報読解部1022は、画像に検索範囲A1を設定する。情報読解部1022は、検索範囲A1の中央部分から指示代名詞の指す対象を検出する。ここでは、情報読解部1022は、近称の指示代名詞の指す対象として単語「CCC」を検出する。
指示代名詞の種別が中称である場合、情報読解部1022は、画像に検索範囲A2を設定する。情報読解部1022は、検索範囲A2の境界近傍の領域から指示代名詞の指す対象を検出する。ここでは、情報読解部1022は、中称の指示代名詞の指す対象として単語「BBB」を検出する。
指示代名詞の種別が遠称である場合、情報読解部1022は、画像に検索範囲A3を設定する。情報読解部1022は、検索範囲A3の境界近傍の領域から指示代名詞の指す対象を検出する。単語「AAA」及び単語「DDD」は、検索範囲A3の境界近傍の領域に存在している。そのため、単語「AAA」及び単語「DDD」は、遠称の指示代名詞の指す対象の候補である。情報読解部1022は、複数の候補の中から予め定められた基準に従い、遠称の指示代名詞の指す対象として単語「AAA」または単語「DDD」の何れかを検出する。
一例では、予め定められた基準は、複数の候補のうち、強調文字列の候補を優先する基準である。強調文字列は、聴衆の視覚による認識され易さによって任意に設定可能である。例えば、強調文字列は、フォントサイズの大きさで決まってもよい。情報読解部1022は、複数の候補のうちフォントサイズの最も大きい候補を指示代名詞の指す対象として検出することができる。例えば、強調文字列は、フォントの色で決まってもよい。画像が白背景であれば、情報読解部1022は、黒色以外の色(例えば赤色など)で表示される候補を指示代名詞の指す対象として検出することができる。画像が白背景であれば、情報読解部1022は、白色以外の色(例えば赤色など)で表示される候補を指示代名詞の指す対象として検出することができる。
別の例では、予め定められた基準は、複数の候補のうち、指示代名詞の前後の文脈に沿う候補を優先する基準である。この例では、情報読解部1022は、話者の音声のテキストデータに基づく指示代名詞の前後の文脈と、画像から検出された複数の候補の前後の文脈を比較する。情報読解部1022は、複数の候補のうち、指示代名詞の前後の文脈に沿う候補を指示代名詞の指す対象として検出する。例えば、話者の音声のテキストデータに基づく指示代名詞「あちら」の後の文脈が、「の構造」であったとする。情報読解部1022は、画像から検出された複数の候補のうち、指示代名詞「あちら」の後の「の構造」に沿う単語「AAA」を指示代名詞「あちら」の指す対象として検出する。
なお、基準は、上述の例に限定されるものではない。
上述の情報解析部102による情報解析結果について説明する。
図10は、情報解析結果を例示する図である。
情報解析結果は、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「CCC」を含む。
音声合成部103の構成について説明する。
図11は、音声合成部103の構成を例示するブロック図である。
音声合成部103は、テキスト生成部1031、波形生成部1032及び音声出力部1033を備える。
テキスト生成部1031は、情報解析部102から情報解析結果を受け取りに応じて動作を開始する。テキスト生成部1031は、情報解析結果に基づいて、指示代名詞が対象を指すことを示すテキスト(文)を生成する。指示代名詞が対象を指すことを示すテキストの生成例については後述する。テキスト生成部1031は、指示代名詞が対象を指すことを示すテキストのデータを波形生成部1032へ出力する。
波形生成部1032は、指示代名詞が対象を指すことを示すテキストのデータをテキスト生成部1031から受け取る。波形生成部1032は、指示代名詞が対象を指すことを示すテキストを音声データ(音声波形)に変換する。これにより、波形生成部1032は、指示代名詞が対象を指すことを示す音声データを生成する。波形生成部1032は、指示代名詞が対象を指すことを示す音声データを音声出力部1033へ出力する。
音声出力部1033は、指示代名詞が対象を指すことを示す音声データを波形生成部1032から受け取る。音声出力部1033は、音声データに基づいて音声を再生し、指示代名詞が対象を指すことを示す音声を出力する。音声出力部1033は、通信部14を介して、指示代名詞が対象を指すことを示す音声をヘッドフォン3へ出力する。これにより、聴衆は、スクリーンに現在投影されている画像を見ていなくても、話者が発した指示代名詞の指す対象を認識することができる。
上述のテキスト生成部1031による指示代名詞が対象を指すことを示すテキストの生成例について説明する。
図12は、テキスト生成部1031により生成されるテキストを例示する図である。
ここで、情報解析結果は、図10に示すように、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「CCC」を含むものとする。テキスト生成部1031は、指示代名詞を示すデータである「これ」及び判読情報である「CCC」を参照し、≪「これ」が指すのは、「CCC」です」≫などの指示代名詞が対象を指すことを示すテキストを生成する。ここに示すテキストは例示であり、指示代名詞が対象を指すことを示すテキストであれば限定されない。
次に、音声処理装置1における音声処理について説明する。
図13は、音声処理装置1における音声処理を例示するフローチャートである。
音声処理装置1は、音声入力装置13を介して、話者の音声を単語検出部101へ常時入力する(Act101)。
単語検出部101が動作していない場合(Act102、No)、音声処理装置1は、Act101の動作を繰り返す。単語検出部101が動作している場合(Act102、Yes)、単語検出部101は、音声データから指示代名詞を示すデータを検出(確定)する(Act103)。単語検出部101は、指示代名詞を示すデータを含む単語検出結果を情報解析部102へ送出する。
情報解析部102が動作していない場合(Act104、No)、音声処理装置1は、Act101の動作を繰り返す。情報解析部102が動作している場合(Act104、Yes)、情報解析部102は、単語検出部101からの単語検出結果の受け取りに応じて動作する。情報解析部102は、画像から指示代名詞の指す対象を検出し、情報解析結果を音声合成部103へ出力する。
音声合成部103は、情報解析部102からの情報解析結果の受け取りに応じて動作する(Act105)。音声合成部103は、指示代名詞が対象を指すことを示す音声データを生成する。
次に、単語検出部101における音声処理について説明する。
図14は、単語検出部101における単語検出処理を例示するフローチャートである。
音声入力部1011は、例示したように、音声入力装置13を介して話者の音声の電気信号を取り込む(Act201)。音声入力部1011は、話者の音声データを音声認識部1012へ出力する。
音声認識部1012は、例示したように、話者の音声データに基づいて、話者の音声を認識する(Act202)。音声認識部1012は、認識結果を結果照合部1013へ出力する。
結果照合部1013は、例示したように、認識結果を指示代名詞DB121と照合する(Act203)。指示代名詞を示すデータが検出されない場合(Act203、No)、音声入力部1011は、Act201の動作を繰り返す。指示代名詞を示すデータが検出された場合(Act203、Yes)、送出部1014は、例示したように、指示代名詞を示すデータを含む単語検出結果を情報解析部102へ送出する(Act204)。
次に、情報解析部102における音声処理について説明する。
図15は、情報解析部102における情報解析処理を例示するフローチャートである。
情報解析部102は、単語検出部101からの単語検出結果の受け取りに応じて、判読情報に格納されている結果データを初期化する(Act301)。ポイント検出部1021は、例示したように、画像におけるポイント位置を検出する(Act302)。ポイント検出部1021は、画像データ及びポイント位置を示すデータを情報読解部1022へ出力する。
情報読解部1022は、例示したように、検索範囲に存在する情報を判読する(Act303)。Act303では、情報読解部1022は、単語検出結果、画像データ及びポイント位置を示すデータに基づいて、画像から、検索範囲に存在する情報を判読する。
情報読解部1022は、例示したように、検索範囲で指示代名詞の指す対象を示す判読情報を検出する(Act304)。情報読解部1022が判読情報を検出しない場合(Act304、No)、情報解析部102は、情報解析処理を終了する。情報読解部1022が判読情報を検出した場合(Act304、Yes)、情報読解部1022は、例示したように、判読情報に指示代名詞の指す対象を示す結果データを格納する(Act305)。データ出力部1023は、例示したように、結果データが格納された判読情報を含む情報解析結果を音声合成部103へ送出する(Act306)。
次に、音声合成部103における音声処理について説明する。
テキスト生成部1031は、例示したように情報解析部102からの情報解析結果に基づいて、指示代名詞が対象を指すことを示すテキストを生成する(Act401)。テキスト生成部1031は、テキストのデータを波形生成部1032へ出力する。
波形生成部1032は、例示したように、テキストのデータに基づいて、指示代名詞が対象を指すことを示す音声データ(音声波形)を生成する(Act402)。波形生成部1032は、音声データを音声出力部1033へ出力する。
音声出力部1033は、例示したように、音声データに基づいて音声を再生し、指示代名詞が対象を指すことを示す音声を出力する(Act403)。
本実施形態によれば、音声処理装置1は、指示代名詞の種別及びポイント位置に基づいて、画像から指示代名詞の指す対象を検出し、指示代名詞が対象を指すことを示す音声データを生成することができる。これにより、音声処理装置1は、話者の発した指示代名詞が指す対象(内容)を音声出力することで、視覚に依存せず、話者の意図を全聴衆に伝えることができる。これにより、聴衆は、スクリーンに現在投影されている画像を見ていなくても、話者が発した指示代名詞の指す対象を認識することができる。
さらに、本実施形態によれば、音声処理装置1は、指示代名詞の種別に応じて、ポイント位置を中心とした検索範囲を変更することができる。話者は、プレゼンテーションを行う際に、ポイント位置と対象の位置との距離感を把握した上で、対象を指す指示代名詞を使い分ける。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に応じて変わる傾向にある。そのため、音声処理装置1は、指示代名詞の種別に応じて検索範囲を変更することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。
さらに、本実施形態によれば、音声処理装置1は、近称、中称、遠称の順にポイント位置よりも離れた位置に検索範囲を設定することができる。話者は、プレゼンテーションを行う際に、ポイント位置と対象の位置との距離に応じて、対象を指す指示代名詞を近称、中称、遠称の順に使い分ける。つまり、指示代名詞の指す対象の位置は、近称、中称、遠称の順にポイント位置よりも離れる傾向にある。そのため、音声処理装置1は、近称、中称、遠称に応じて検索範囲を設定することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。
さらに、本実施形態によれば、音声処理装置1は、ポイント位置を中心とした円状に検索範囲を設定することができる。話者は、プレゼンテーションを行う際に、ポイント位置を中心とした何れの方向に位置する対象についても指示代名詞を使うからである。話者は、ポイント位置を中心とした第1の方向に位置する対象について指示代名詞を使うが、第1の方向とは異なる第2の方向に位置する対象について指示代名詞を使わないといったことはない。つまり、指示代名詞の指す対象の位置は、指示代名詞の種別に依らずポイント位置を中心とした円状の範囲の何れの位置にも存在する可能性がある。そのため、音声処理装置1は、検索範囲を円状に設定することで、画像から指示代名詞の指す対象を検出する精度を向上させることができる。
なお、上記実施形態は、以下のように変形することができる。
1つ目の変形例について説明する。ポイント検出部1021は、PC2からのポインタの位置を示すデータに基づいて画像におけるポイント位置を検出しているが、これに限定されない。
一例では、ポイント検出部1021は、スクリーンに現在投影されている画像のうち、話者がレーザポインタで指し示すレーザ光の位置をポイント位置として検出してもよい。この例では、スクリーンを撮影するカメラを用意する。ポイント検出部1021は、カメラで撮影されたデータを取得する。ポイント検出部1021は、種々の画像解析技術を用い、画像におけるレーザ光の位置を求める。ポイント検出部1021は、レーザ光の位置をポイント位置として検出する。これに代えて、3次元センサを搭載したレーザポインタを用意してもよい。ポイント検出部1021は、レーザポインタに搭載されている3次元センサのセンシングデータを取得する。ポイント検出部1021は、種々の解析技術を用い、3次元センサのセンシングデータに基づいて、話者がレーザポインタで指し示す方向を求める。ポイント検出部1021は、話者がレーザポインタで指し示す方向に基づいて画像におけるレーザ光の位置を推定し、レーザ光の位置をポイント位置として検出する。
別の例では、ポイント検出部1021は、スクリーンに現在投影されている画像のうち、話者が見ている位置をポイント位置として検出してもよい。この例では、スクリーン及び話者を撮影するカメラを用意する。ポイント検出部1021は、カメラで撮影されたデータを取得する。ポイント検出部1021は、種々の画像解析技術を用い、スクリーンに現在投影されている画像のうち、話者が見ている位置を推定する。ポイント検出部1021は、ポイント検出部1021は、話者が見ている位置をポイント位置として検出する。
2つ目の変形例について説明する。音声処理装置1は、制御ユニット11に単語検出部101、情報解析部102及び音声合成部103を実装しているが、これに限定されない。音声処理装置1は、単語検出部101と同様に動作するプロセッサを備える単語検出器、情報解析部102と同様に動作するプロセッサを備える情報解析器及び音声合成部103と同様に動作するプロセッサを備える音声合成器を別個とハードウェアとして備えていてもよい。この例では、音声処理装置1は、単語検出器、情報解析器及び音声合成器を制御するプロセッサを備えていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…音声処理装置、2…PC、3…ヘッドフォン、11…制御ユニット、12…記憶装置、13…音声入力装置、14…通信部、101…単語検出部、102…情報解析部、103…音声合成部、111…プロセッサ、112…ROM、113…RAM、121…指示代名詞DB、122…設定値DB、1011…音声入力部、1012…音声認識部、1013…結果照合部、1014…送出部、1021…ポイント検出部、1022…情報読解部、1023…データ出力部、1031…テキスト生成部、1032…波形生成部、1033…音声出力部、P…ポイント位置、A1…検索範囲、A2…検索範囲、A3…検索範囲。

Claims (5)

  1. 話者の音声データを取得する取得部と、
    前記音声データから指示代名詞を示すデータを検出する第1の検出部と、
    前記指示代名詞の種別を検出する第2の検出部と、
    画像におけるポイント位置を検出する第3の検出部と、
    前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する第4の検出部と、
    前記指示代名詞が前記対象を指すことを示す音声データを生成する生成部と、
    を備える音声処理装置。
  2. 前記第4の検出部は、前記指示代名詞の種別に応じて、前記ポイント位置を中心とした前記指示代名詞の指す対象を検出する範囲を変更する、請求項1に記載の音声処理装置。
  3. 前記第2の検出部は、前記指示代名詞の種別が近称、中称または遠称の何れなのかを検出し、
    前記第4の検出部は、近称、中称、遠称の順に前記ポイント位置よりも離れた位置に前記範囲を設定する、請求項2に記載の音声処理装置。
  4. 前記第4の検出部は、前記ポイント位置を中心とした円状に前記範囲を設定する、請求項3に記載の音声処理装置。
  5. 話者の音声データを取得し、
    前記音声データから指示代名詞を示すデータを検出し、
    前記指示代名詞の種別を検出し、
    画像におけるポイント位置を検出し、
    前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出し、
    前記指示代名詞が前記対象を指すことを示す音声データを生成する、
    音声処理方法。
JP2018097103A 2018-05-21 2018-05-21 音声処理装置及び音声処理方法 Active JP7068923B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018097103A JP7068923B2 (ja) 2018-05-21 2018-05-21 音声処理装置及び音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018097103A JP7068923B2 (ja) 2018-05-21 2018-05-21 音声処理装置及び音声処理方法

Publications (2)

Publication Number Publication Date
JP2019203922A true JP2019203922A (ja) 2019-11-28
JP7068923B2 JP7068923B2 (ja) 2022-05-17

Family

ID=68726785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018097103A Active JP7068923B2 (ja) 2018-05-21 2018-05-21 音声処理装置及び音声処理方法

Country Status (1)

Country Link
JP (1) JP7068923B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221245A (ja) * 1995-02-10 1996-08-30 Hitachi Ltd 音声による操作指示を受け付ける情報処理装置
JP2011086123A (ja) * 2009-10-15 2011-04-28 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
JP2017054064A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221245A (ja) * 1995-02-10 1996-08-30 Hitachi Ltd 音声による操作指示を受け付ける情報処理装置
JP2011086123A (ja) * 2009-10-15 2011-04-28 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
JP2017054064A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム

Also Published As

Publication number Publication date
JP7068923B2 (ja) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112088315B (zh) 多模式语音定位
US10621991B2 (en) Joint neural network for speaker recognition
KR102559028B1 (ko) 핸드라이팅 인식 방법 및 장치
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4708913B2 (ja) 情報処理方法及び情報処理装置
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
TWI412953B (zh) 基於從所捕獲的三維影像流所偵測之使用者行為信號控制文件
JP6432405B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP7143916B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
RU2684475C2 (ru) Изменение визуального контента для содействия усовершенствованному распознаванию речи
US20190341053A1 (en) Multi-modal speech attribution among n speakers
US11848968B2 (en) System and method for augmented reality video conferencing
US10788902B2 (en) Information processing device and information processing method
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
KR102251832B1 (ko) 번역 서비스를 제공하는 전자 장치 및 방법
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
US11900931B2 (en) Information processing apparatus and information processing method
JP2020507165A (ja) データ可視化のための情報処理方法及び装置
JP2017146672A (ja) 画像表示装置、画像表示方法、画像表示プログラム及び画像表示システム
JP2017211430A (ja) 情報処理装置および情報処理方法
JP2019203922A (ja) 音声処理装置及び音声処理方法
JP7468360B2 (ja) 情報処理装置および情報処理方法
KR100831991B1 (ko) 정보처리방법 및 정보처리장치
JP6471589B2 (ja) 説明支援装置、説明支援方法及び説明支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220502

R150 Certificate of patent or registration of utility model

Ref document number: 7068923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150