JP2013148795A - 音声処理装置及びプログラム - Google Patents
音声処理装置及びプログラム Download PDFInfo
- Publication number
- JP2013148795A JP2013148795A JP2012010483A JP2012010483A JP2013148795A JP 2013148795 A JP2013148795 A JP 2013148795A JP 2012010483 A JP2012010483 A JP 2012010483A JP 2012010483 A JP2012010483 A JP 2012010483A JP 2013148795 A JP2013148795 A JP 2013148795A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- speech
- data
- morpheme
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声処理装置は、学習用データの各形態素と学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、音声データのジャンルに対応するキーワードデータに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、音声データの再生時に、抽出された時刻情報に基づいて音声処理対象のキーワードに対して話速変換を行う話速変換部と、を備える。
【選択図】図1
Description
<構成>
図1は、実施例1における音声処理装置1の概略構成の一例を示すブロック図である。図1に示す音声処理装置1は、学習用データ記憶部101と、形態素解析部102と、キーワード学習用データ記憶部103と、音声認識部104と、認識結果記憶部105と、キーワード抽出部106と、音声処理用キーワードデータ記憶部107と、話速変換部108とを有する。
次に、実施例1における音声処理装置1の動作について説明する。図4は、実施例1における音声処理装置1の音声処理の一例を示すフローチャートである。図4に示すステップS101で、音声認識部104は、入力された聴取対象の音声データに対して音声認識を行って、形態素毎に時刻情報が関連付けられた認識結果を取得する。
TF−IDF値xi,jは、以下の式(1)で表される。
次に、実施例2における音声処理装置について説明する。実施例2では、学習用データとして、聴取履歴に基づく音声認識結果のデータを用いる。以下では、このデータを聴取履歴に基づく認識結果データとも呼ぶ。聴取履歴に基づく認識結果データとは、過去に聴取者が聴取した音声データの音声認識結果のうち、聴取の際に再生速度を通常再生速度よりも遅くして聴取した部分をジャンル情報毎に集めたものである。通常再生速度よりも遅くして聴取した部分は、聴取者が特に注意して聴き取ろうとした部分であると推定される。
図6は、実施例2における音声処理装置2の概略構成の一例を示すブロック図である。図6に示す音声処理装置2は、認識結果データ記憶部201と、履歴キーワード抽出部202と、履歴キーワード記憶部203と、音声認識部204と、認識結果記憶部205と、キーワード抽出部206と、音声処理用キーワードデータ記憶部207と、話速変換部208とを有する。
次に、実施例2における音声処理装置2の動作について説明する。実施例2における音声処理装置2の音声処理は、図4に示す処理と基本的に同様であるため、その説明を省略する。実施例1と異なる処理は、キーワード抽出処理である。以下、実施例2におけるキーワード抽出処理について説明する。
図9は、実施例3における情報処理装置3の構成の一例を示すブロック図である。情報処理装置3は、上述した実施例1及び実施例2で説明した音声処理をソフトウェアで実装した装置の一例である。
3 情報処理装置
101 学習用データ記憶部
102 形態素解析部
103 キーワード学習用データ記憶部
104、204 音声認識部
105、205 認識結果記憶部
106、206 キーワード抽出部
107、207 音声処理用キーワードデータ記憶部
108、208 話速変換部
201 認識結果データ記憶部
202 履歴キーワード抽出部
203 履歴キーワードデータ記憶部
301 制御部
302 主記憶部
303 補助記憶部
Claims (5)
- 学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、
入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、
前記音声データのジャンルに対応する前記キーワードデータに含まれる各形態素と、前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、
前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換部と、
を備える音声処理装置。 - 前記学習用データは、ジャンルが関連付けられた複数のドキュメントであり、
前記学習用データに対して形態素解析を行う形態素解析部をさらに備える請求項1記載の音声処理装置。 - 前記学習用データは、再生された音声データに対し、話速変換が行われた部分がジャンル毎に集められたデータであり、
前記キーワードデータに含まれる形態素は、前記話速変換が行われた部分の形態素から抽出されたキーワードであり、
前記キーワードデータはさらに、前記キーワードの出現回数が関連付けられ、
前記抽出部は、
前記出現回数が閾値以上のキーワード及び該キーワードに対応する時刻情報を抽出する請求項1記載の音声処理装置。 - 前記話速変換部は、
前記音声処理対象のキーワードの再生が2回目以上である場合、1回目の話速とは異なる話速に変換する請求項1乃至3いずれか一項に記載の音声処理装置。 - 入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識ステップと、
前記音声データのジャンルに対応する各形態素を、学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部から取得する取得ステップと、
前記取得された各形態素と前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出ステップと、
前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換ステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012010483A JP5802139B2 (ja) | 2012-01-20 | 2012-01-20 | 音声処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012010483A JP5802139B2 (ja) | 2012-01-20 | 2012-01-20 | 音声処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013148795A true JP2013148795A (ja) | 2013-08-01 |
JP5802139B2 JP5802139B2 (ja) | 2015-10-28 |
Family
ID=49046340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012010483A Active JP5802139B2 (ja) | 2012-01-20 | 2012-01-20 | 音声処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5802139B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015049311A (ja) * | 2013-08-30 | 2015-03-16 | ブラザー工業株式会社 | 情報処理装置、話速データ生成方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004212665A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 話速可変装置及び話速変換方法 |
WO2004066271A1 (ja) * | 2003-01-20 | 2004-08-05 | Fujitsu Limited | 音声合成装置,音声合成方法および音声合成システム |
JP2005148307A (ja) * | 2003-11-13 | 2005-06-09 | Ricoh Co Ltd | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
-
2012
- 2012-01-20 JP JP2012010483A patent/JP5802139B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004212665A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 話速可変装置及び話速変換方法 |
WO2004066271A1 (ja) * | 2003-01-20 | 2004-08-05 | Fujitsu Limited | 音声合成装置,音声合成方法および音声合成システム |
JP2005148307A (ja) * | 2003-11-13 | 2005-06-09 | Ricoh Co Ltd | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200100642004; 岡本 東: '文書間の関係に基づくキーワード自動抽出の検討' 情報処理学会研究報告 第99巻第102号, 19991130, 23-30頁, 社団法人情報処理学会 Information Processing Socie * |
CSNG200100868001; 古井 貞煕: '音声トランスクリプションのこれまでと今後の展望' 電子情報通信学会論文誌 (J83-D-II) VOL.J83-D-II NO.11, 20001125, 2059-2067頁, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
CSNG201000534002; 横山 祥恵: '高齢者向け対話インタフェース' 情報処理学会研究報告 平成21年度▲6▼ [DVD-ROM] Vol.2010-SLP-80 No.4, 20100415, 1-6頁, 社団法人情報処理学会 * |
JPN6015007595; 古井 貞煕: '音声トランスクリプションのこれまでと今後の展望' 電子情報通信学会論文誌 (J83-D-II) VOL.J83-D-II NO.11, 20001125, 2059-2067頁, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
JPN6015007596; 横山 祥恵: '高齢者向け対話インタフェース' 情報処理学会研究報告 平成21年度▲6▼ [DVD-ROM] Vol.2010-SLP-80 No.4, 20100415, 1-6頁, 社団法人情報処理学会 * |
JPN6015007598; 岡本 東: '文書間の関係に基づくキーワード自動抽出の検討' 情報処理学会研究報告 第99巻第102号, 19991130, 23-30頁, 社団法人情報処理学会 Information Processing Socie * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015049311A (ja) * | 2013-08-30 | 2015-03-16 | ブラザー工業株式会社 | 情報処理装置、話速データ生成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5802139B2 (ja) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10282162B2 (en) | Audio book smart pause | |
EP3522151B1 (en) | Method and device for processing dual-source audio data | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US11295069B2 (en) | Speech to text enhanced media editing | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
WO2019148585A1 (zh) | 会议摘要生成方法以及装置 | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US12027171B2 (en) | Creating a printed publication, an e-book, and an audio book from a single file | |
CN109858005A (zh) | 基于语音识别的文档更新方法、装置、设备及存储介质 | |
US20140129221A1 (en) | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method | |
JP5802139B2 (ja) | 音声処理装置及びプログラム | |
Neergaard et al. | Graph theoretic approach to Mandarin syllable segmentation | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2021017302A1 (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
JP6115487B2 (ja) | 情報収集方法、対話システム及び情報収集装置 | |
Yasmin et al. | Automatic Speech Summarization Without Linguistic Knowledge Based on Frame Selection Through Acoustic Features | |
KR102389776B1 (ko) | 요청시 오디오 레코딩으로의 보충적 오디오 콘텐츠의 동적 삽입 | |
CN108595470A (zh) | 音频段落收藏方法、装置、系统及计算机设备 | |
CN1886726A (zh) | 转录音频信号的方法和设备 | |
Yasmin et al. | Automatic Speech Summarization Without Linguistic Knowledge Based on Frame Selection Through Acoustic | |
KR101030777B1 (ko) | 스크립트 데이터 생성 방법 및 장치 | |
CN115718800A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Milde et al. | Demonstrating ambient search: Implicit document retrieval for speech streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5802139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |