JP2019203922A - 音声処理装置及び音声処理方法 - Google Patents
音声処理装置及び音声処理方法 Download PDFInfo
- Publication number
- JP2019203922A JP2019203922A JP2018097103A JP2018097103A JP2019203922A JP 2019203922 A JP2019203922 A JP 2019203922A JP 2018097103 A JP2018097103 A JP 2018097103A JP 2018097103 A JP2018097103 A JP 2018097103A JP 2019203922 A JP2019203922 A JP 2019203922A
- Authority
- JP
- Japan
- Prior art keywords
- pronoun
- unit
- indicating
- point position
- detection unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
図1は、音声処理装置1の構成を例示するブロック図である。音声処理装置1は、話者が発した指示代名詞の指す対象を具体化することで、視覚に依存しない表現を聴衆に伝えるための装置である。例えば、話者は、プレゼンテーションの発表者である。
音声処理装置1は、制御ユニット11、記憶装置12、音声入力装置13及び通信部14を備える。
制御ユニット11は、ROM112または記憶装置12が記憶するプログラムを実行することにより、以下の各部を実装する。制御ユニット11は、単語検出部101、情報解析部102及び音声合成部103を備える。
図3は、単語検出部101の構成を例示するブロック図である。
単語検出部101は、音声入力部1011、音声認識部1012、結果照合部1013及び送出部1014を備える。
図4は、記憶装置12に記憶されている指示代名詞DB121を例示する図である。
図5は、単語検出部101による単語検出結果を例示する図である。図5は、3つの異なる単語検出結果を示す。例えば、単語検出結果は、指示代名詞の検出を示すデータとして「検出」を示すデータ、指示代名詞を示すデータとして「これ」を示すデータ及び指示代名詞の種別を示すデータとして「近称」を示すデータを含む。他の2つの例についても同様である。
図7は、設定値DB122を例示する図である。
設定値DB122は、「指示代名詞」及び「検索範囲」を属性とするデータベースである。「指示代名詞」は、近称、中称または遠称の何れかの指示代名詞の種別を示す。「検索範囲」は、ポイント位置を中心とした円状の検索範囲を設定するための半径Rを示す。半径Rは、近称、中称、遠称の順に大きくなる。これにより、指示代名詞DB121は、指示代名詞の種別と、検索範囲を対応付けている。
図8は、対象の検索条件を例示する図である。
検索条件は、ポイント位置及び指示代名詞の種別に応じた検索範囲を含む。例えば、ポイント位置は、(100,500)である。検索範囲は、R=10である。情報読解部1022は、検索条件に応じて、画像データに基づく画像から、検索範囲内に存在する指示代名詞の指す対象を検索する。情報読解部1022は、指示代名詞の指す対象の検索成功に応じて、判読情報に指示代名詞の指す対象を示す結果データを格納する。
図9は、画像データに基づく画像及び対象の検索範囲を例示する図である。画像は、プレゼンテーションのサンプル画面である。ポイント位置Pは、単語「CCC」と重なる位置にあるとする。近称に対応する検索範囲A1、中称に対応する検索範囲A2及び遠称に対応する検索範囲A3は、ポイント位置Pを中心とした互いに異なる円状の範囲である。検索範囲A1は、ポイント位置Pの周辺の狭い範囲である。中称に対応する検索範囲A2は、ポイント位置Pを中心として、近称に対応する検索範囲A1よりも半径の大きな円状の範囲である。遠称に対応する検索範囲A3は、ポイント位置Pを中心として、中称に対応する検索範囲A2よりも半径の大きな円状の範囲である。
図10は、情報解析結果を例示する図である。
情報解析結果は、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「CCC」を含む。
図12は、テキスト生成部1031により生成されるテキストを例示する図である。
ここで、情報解析結果は、図10に示すように、指示代名詞の検出を示すデータとして「検出」、指示代名詞を示すデータとして「これ」、指示代名詞の種別を示すデータとして「近称」及び判読情報として「CCC」を含むものとする。テキスト生成部1031は、指示代名詞を示すデータである「これ」及び判読情報である「CCC」を参照し、≪「これ」が指すのは、「CCC」です」≫などの指示代名詞が対象を指すことを示すテキストを生成する。ここに示すテキストは例示であり、指示代名詞が対象を指すことを示すテキストであれば限定されない。
単語検出部101が動作していない場合(Act102、No)、音声処理装置1は、Act101の動作を繰り返す。単語検出部101が動作している場合(Act102、Yes)、単語検出部101は、音声データから指示代名詞を示すデータを検出(確定)する(Act103)。単語検出部101は、指示代名詞を示すデータを含む単語検出結果を情報解析部102へ送出する。
図14は、単語検出部101における単語検出処理を例示するフローチャートである。
1つ目の変形例について説明する。ポイント検出部1021は、PC2からのポインタの位置を示すデータに基づいて画像におけるポイント位置を検出しているが、これに限定されない。
一例では、ポイント検出部1021は、スクリーンに現在投影されている画像のうち、話者がレーザポインタで指し示すレーザ光の位置をポイント位置として検出してもよい。この例では、スクリーンを撮影するカメラを用意する。ポイント検出部1021は、カメラで撮影されたデータを取得する。ポイント検出部1021は、種々の画像解析技術を用い、画像におけるレーザ光の位置を求める。ポイント検出部1021は、レーザ光の位置をポイント位置として検出する。これに代えて、3次元センサを搭載したレーザポインタを用意してもよい。ポイント検出部1021は、レーザポインタに搭載されている3次元センサのセンシングデータを取得する。ポイント検出部1021は、種々の解析技術を用い、3次元センサのセンシングデータに基づいて、話者がレーザポインタで指し示す方向を求める。ポイント検出部1021は、話者がレーザポインタで指し示す方向に基づいて画像におけるレーザ光の位置を推定し、レーザ光の位置をポイント位置として検出する。
Claims (5)
- 話者の音声データを取得する取得部と、
前記音声データから指示代名詞を示すデータを検出する第1の検出部と、
前記指示代名詞の種別を検出する第2の検出部と、
画像におけるポイント位置を検出する第3の検出部と、
前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出する第4の検出部と、
前記指示代名詞が前記対象を指すことを示す音声データを生成する生成部と、
を備える音声処理装置。 - 前記第4の検出部は、前記指示代名詞の種別に応じて、前記ポイント位置を中心とした前記指示代名詞の指す対象を検出する範囲を変更する、請求項1に記載の音声処理装置。
- 前記第2の検出部は、前記指示代名詞の種別が近称、中称または遠称の何れなのかを検出し、
前記第4の検出部は、近称、中称、遠称の順に前記ポイント位置よりも離れた位置に前記範囲を設定する、請求項2に記載の音声処理装置。 - 前記第4の検出部は、前記ポイント位置を中心とした円状に前記範囲を設定する、請求項3に記載の音声処理装置。
- 話者の音声データを取得し、
前記音声データから指示代名詞を示すデータを検出し、
前記指示代名詞の種別を検出し、
画像におけるポイント位置を検出し、
前記指示代名詞の種別及び前記ポイント位置に基づいて、前記画像から前記指示代名詞の指す対象を検出し、
前記指示代名詞が前記対象を指すことを示す音声データを生成する、
音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097103A JP7068923B2 (ja) | 2018-05-21 | 2018-05-21 | 音声処理装置及び音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097103A JP7068923B2 (ja) | 2018-05-21 | 2018-05-21 | 音声処理装置及び音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019203922A true JP2019203922A (ja) | 2019-11-28 |
JP7068923B2 JP7068923B2 (ja) | 2022-05-17 |
Family
ID=68726785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018097103A Active JP7068923B2 (ja) | 2018-05-21 | 2018-05-21 | 音声処理装置及び音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7068923B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221245A (ja) * | 1995-02-10 | 1996-08-30 | Hitachi Ltd | 音声による操作指示を受け付ける情報処理装置 |
JP2011086123A (ja) * | 2009-10-15 | 2011-04-28 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
JP2017054064A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
-
2018
- 2018-05-21 JP JP2018097103A patent/JP7068923B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221245A (ja) * | 1995-02-10 | 1996-08-30 | Hitachi Ltd | 音声による操作指示を受け付ける情報処理装置 |
JP2011086123A (ja) * | 2009-10-15 | 2011-04-28 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
JP2017054064A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7068923B2 (ja) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112088315B (zh) | 多模式语音定位 | |
US10621991B2 (en) | Joint neural network for speaker recognition | |
KR102559028B1 (ko) | 핸드라이팅 인식 방법 및 장치 | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP4708913B2 (ja) | 情報処理方法及び情報処理装置 | |
JP4559946B2 (ja) | 入力装置、入力方法および入力プログラム | |
KR100586767B1 (ko) | 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 | |
TWI412953B (zh) | 基於從所捕獲的三維影像流所偵測之使用者行為信號控制文件 | |
JP6432405B2 (ja) | プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
JP7143916B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
RU2684475C2 (ru) | Изменение визуального контента для содействия усовершенствованному распознаванию речи | |
US20190341053A1 (en) | Multi-modal speech attribution among n speakers | |
US11848968B2 (en) | System and method for augmented reality video conferencing | |
US10788902B2 (en) | Information processing device and information processing method | |
US20210110815A1 (en) | Method and apparatus for determining semantic meaning of pronoun | |
KR102251832B1 (ko) | 번역 서비스를 제공하는 전자 장치 및 방법 | |
JP2007272534A (ja) | 省略語補完装置、省略語補完方法、及びプログラム | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
JP2020507165A (ja) | データ可視化のための情報処理方法及び装置 | |
JP2017146672A (ja) | 画像表示装置、画像表示方法、画像表示プログラム及び画像表示システム | |
JP2017211430A (ja) | 情報処理装置および情報処理方法 | |
JP2019203922A (ja) | 音声処理装置及び音声処理方法 | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
KR100831991B1 (ko) | 정보처리방법 및 정보처리장치 | |
JP6471589B2 (ja) | 説明支援装置、説明支援方法及び説明支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7068923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |