JP2013148795A - 音声処理装置及びプログラム - Google Patents

音声処理装置及びプログラム Download PDF

Info

Publication number
JP2013148795A
JP2013148795A JP2012010483A JP2012010483A JP2013148795A JP 2013148795 A JP2013148795 A JP 2013148795A JP 2012010483 A JP2012010483 A JP 2012010483A JP 2012010483 A JP2012010483 A JP 2012010483A JP 2013148795 A JP2013148795 A JP 2013148795A
Authority
JP
Japan
Prior art keywords
keyword
speech
data
morpheme
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012010483A
Other languages
English (en)
Other versions
JP5802139B2 (ja
Inventor
Takahiro Oku
貴裕 奥
Atsushi Imai
篤 今井
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012010483A priority Critical patent/JP5802139B2/ja
Publication of JP2013148795A publication Critical patent/JP2013148795A/ja
Application granted granted Critical
Publication of JP5802139B2 publication Critical patent/JP5802139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行う。
【解決手段】音声処理装置は、学習用データの各形態素と学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、音声データのジャンルに対応するキーワードデータに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、音声データの再生時に、抽出された時刻情報に基づいて音声処理対象のキーワードに対して話速変換を行う話速変換部と、を備える。
【選択図】図1

Description

本発明は、音声データを処理する音声処理装置及びプログラムに関する。
話速変換技術は、テレビやラジオの音声の速度を変化させ、聴き取り易さを向上させる技術である。話速変換技術として、音声波形を基本周波数で繰り返したり、間引いたりすることで再生速度を変化させるTDHS(Time Domain Harmonic Scaling)や、ポインタ移動制御による重複加算法であるPICOLA(Pointer Interval Control Overlap and Add)などの時間軸圧縮伸長法が提案されている。
これらの話速変換技術によれば、テレビやラジオの音声を早口で聴き取りづらいと感じている高齢者は、放送番組をゆっくりと聴きやすい音声で聴くことが可能となる。また、音声から多くの情報を得ている視覚障害者は、音声の再生速度を高速にしても聴きやすい音声で聞くことが可能となる。
このような話速変換技術を用いた音声再生装置により再生する音声データとしては、人手により見出しなどが付加されデータが構造化されたDAISY(Digital Accessible Information SYstem:デジタル録音図書)が挙げられる。
また、話速変換を含む音声再生システムとして、例えば、入力音声を認識して認識特徴量を抽出し、抽出した認識特徴量に応じて、予め決められた音声処理を選択し、再生する技術がある(特許文献1)。
特開2009−210942号公報
しかしながら、従来の話速変換装置では、DAISYで定められたデータの構造化により、見出しを再生したり、希望する見出しの箇所へスキップして再生したりすることが可能であるものの、データは単語(形態素)毎といった詳細な単位で構造化されている訳ではない。そのため、音声の聴き取り時に発話内容が重要である部分と、そうでない部分とを区別することなく聴かなければならず、効率的ではなかった。
また、特許文献1では、外部リソースを用いて単語や句、文単位でのデータの構造化を試みている。しかし、入力される音声データは、様々な内容があるため、外部リソースを単に用いるだけでは、音声データの内容に応じた発話内容の重要度を精度よく推定することは困難である。
そこで、本発明は、上記課題に鑑みてなされたものであり、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる音声処理装置及びプログラムを提供することを目的とする。
本発明の一態様における音声処理装置は、学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、前記音声データのジャンルに対応する前記キーワードデータに含まれる各形態素と、前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換部と、を備える。
また、前記学習用データは、ジャンルが関連付けられた複数のドキュメントであり、前記学習用データに対して形態素解析を行う形態素解析部をさらに備えてもよい。
また、前記学習用データは、再生された音声データに対し、話速変換が行われた部分がジャンル毎に集められたデータであり、前記キーワードデータに含まれる形態素は、前記話速変換が行われた部分の形態素から抽出されたキーワードであり、前記キーワードデータはさらに、前記キーワードの出現回数が関連付けられ、前記抽出部は、前記出現回数が閾値以上のキーワード及び該キーワードに対応する時刻情報を抽出してもよい。
また、前記話速変換部は、前記音声処理対象のキーワードの再生が2回目以上である場合、1回目の話速とは異なる話速に変換してもよい。
また、本発明の他の態様におけるプログラムは、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識ステップと、前記音声データのジャンルに対応する各形態素を、学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部から取得する取得ステップと、前記取得された各形態素と前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出ステップと、前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換ステップと、をコンピュータに実行させる。
本発明によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。
実施例1における音声処理装置の概略構成の一例を示すブロック図。 形態素解析の概念を説明するための図。 音声処理用キーワードデータの一例を示す図。 実施例1における音声処理装置の音声処理の一例を示すフローチャート。 実施例1におけるキーワード抽出処理の一例を示すフローチャート。 実施例2における音声処理装置の概略構成の一例を示すブロック図。 履歴キーワードデータの一例を示す図。 実施例2におけるキーワード抽出処理の一例を示すフローチャート。 実施例3における情報処理装置の構成の一例を示すブロック図。
以下、添付図面を参照しながら各実施例について詳細に説明する。
[実施例1]
<構成>
図1は、実施例1における音声処理装置1の概略構成の一例を示すブロック図である。図1に示す音声処理装置1は、学習用データ記憶部101と、形態素解析部102と、キーワード学習用データ記憶部103と、音声認識部104と、認識結果記憶部105と、キーワード抽出部106と、音声処理用キーワードデータ記憶部107と、話速変換部108とを有する。
学習用データ記憶部101は、新聞や雑誌など様々なドキュメントの集合である学習用データを記憶する。学習用データの各ドキュメントには、ジャンル情報が関連付けられている。ジャンル情報は、例えばスポーツ、ニュース、音楽などを示す情報である。
形態素解析部102は、学習用データ記憶部101から学習用データを取得し、形態素解析を行う。形態素解析は、対象言語の文法の知識や辞書を情報源として用い、自然言語で書かれた文を形態素の列に分割し、それぞれの品詞を判別する作業を行う。形態素とは、おおまかには、言語で意味を持つ最小単位である。形態素解析部102は、解析した各ドキュメントの形態素をジャンル情報と関連付けてキーワード学習用データ記憶部103に記録する。
形態素解析部102は、形態素解析ツールとして、たとえば、ChaSen(chasen.naist.jp),MeCab(mecab.sourceforge.net)などのいずれかのツールを用いる。
キーワード学習用データ記憶部103は、形態素解析部102により解析された各形態素とジャンル情報とを関連付けたキーワード学習用データを記憶する。
図2は、形態素解析の概念を説明するための図である。図2に示す例では、ジャンル毎の各ドキュメントに対し、形態素解析が行われる。解析された各ドキュメントの各形態素には、ジャンル情報が関連付けられる。
図1に戻り、音声認識部104は、聴取対象の音声データを入力し、音声認識を行う。この音声認識処理は、音声データに対して形態素毎に分割し、各形態素を再生するための時刻情報を取得する処理である。よって、音声認識部104は、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する。音声認識部104は、取得した認識結果を認識結果記憶部105に記録する。
認識結果記憶部105は、音声認識部104により認識結果を書き込まれ、認識結果を記憶する。
キーワード抽出部106は、聴取対象の音声データのジャンル情報を取得し、また、このジャンル情報に対応するキーワード学習用データをキーワード学習用データ記憶部103から取得する。また、キーワード抽出部106は、認識結果記憶部105から認識結果を取得する。
キーワード抽出部106は、聴取対象の音声データのジャンル情報について、音声処理装置1のユーザによりジャンルを選択してもらうことで取得してもよいし、音声データのメタデータにジャンル情報がある場合にはこのメタデータから取得するようにしてもよい。
また、キーワード抽出部106は、音声データのジャンルに対応するキーワード学習用データに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。音声処理対象のキーワードは、例えば、音声データの形態素のうち、その音声データに対して重要度が高いと推定される形態素である。
キーワード抽出部106は、キーワードを抽出するために統計処理を行う。キーワード抽出部106は、例えばTF−IDF処理を行って認識結果内の形態素に対してTF−IDF値を算出する。
キーワード抽出部106は、このTF−IDF値と第一の閾値とを比較し、TF−IDF値の方が大きければ、音声処理用のキーワードとして抽出する。詳しいキーワード抽出処理は、図5を用いて後述する。第一の閾値は、予め実験などにより適切な値が設定されていればよい。
キーワード抽出部106は、抽出した音声処理対象のキーワードと、このキーワードの時刻情報とを関連付けた音声処理用キーワードデータを音声処理用キーワードデータ記憶部107に記録する。
音声処理用キーワードデータ記憶部107は、音声処理対象のキーワードと、このキーワードの時刻情報とが関連付けられた音声処理用キーワードデータを記憶する。
図3は、音声処理用キーワードデータの一例を示す図である。図3(A)は、聴取対象の音声データのジャンル情報が「スポーツ」の場合の例である。聴取対象の音声データ内において、キーワードである「スパイク」、「ハットトリック」がそれぞれ時刻"00:01:32:015−00:01:32:350,00:10:25:042−00:10:25:632,00:15:10:064−00:15:10:873","00:14:20:020−00:14:20:450"に発声されたことを示している。
図3(B)は、聴取対象の音声データのジャンル情報が「音楽」の場合の例である。聴取対象の音声データ内において、キーワードである「ハーモニー」、「スイング」がそれぞれ時刻"00:01:32:015−00:01:32:350,00:10:25:042−00:10:25:634","00:14:20:020−00:14:20:453"に発声されたことを示している。
図1に戻り、話速変換部108は、聴取対象の音声データを再生するときに、音声処理用キーワードデータ記憶部107から音声処理用キーワードデータを取得する。話速変換部108は、取得した音声処理用キーワードデータに含まれる時刻情報に基づいて、各キーワードの開始時刻へスキップして再生したり、各キーワードの発声区間の再生速度を優先的に遅くしたりする。これにより、音声データのジャンルに応じた話速変換による音声聴き取りを効率的にかつ聴き易くすることが可能となる。
また、話速変換部108は、図3(A)に示すように、キーワード「スパイク」が複数回再生される場合は、このキーワードの再生が2回目以上となるときに、1回目の話速とは異なる話速に変換してもよい。話速変換部108は、例えば、1回目の話速よりも2回目以降の方が早くなるように話速変換する。
これは、初回で聞き取りやすくしたキーワードは、2回目以降では初回の話速より早くしても聞き取れる可能性が高いためである。これにより、聞き取れるようになった又は重要と把握したキーワードを何度もゆっくりと再生することを防止することで、より聴き易くすることができる。
また、形態素解析部102は、聴取対象として入力される音声データのジャンル情報に対応する学習用データだけを形態素解析し、キーワード学習用データをキーワード学習用データ記憶部103に記録するようにしてもよい。つまり、ジャンル情報は、形態素解析部102にも入力される。
このとき、キーワード学習用データ記憶部103には、音声データのジャンルに対応するデータのみが記憶されているため、キーワード抽出部106は、キーワード学習用データ記憶部103に記憶されているキーワード学習用データを取得すればよい。
なお、各記憶部101、103、105、107は、1つの記憶装置に実装されてもよいし、複数の記憶部が1つの記憶装置に実装されてもよい。
<動作>
次に、実施例1における音声処理装置1の動作について説明する。図4は、実施例1における音声処理装置1の音声処理の一例を示すフローチャートである。図4に示すステップS101で、音声認識部104は、入力された聴取対象の音声データに対して音声認識を行って、形態素毎に時刻情報が関連付けられた認識結果を取得する。
ステップS102で、キーワード抽出部106は、音声データのジャンルに対応するキーワード学習用データに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。この抽出処理の詳細は、図5を用いて後述する。
ステップS103で、話速変換部108は、聴取対象の音声データを再生する場合、音声処理用キーワードデータに含まれる時刻情報に基づいて、キーワードに対して話速変換処理を行う。話速変換部108は、音声処理用キーワードに含まれる時刻情報の開始時刻と終了時刻の間だけ話速変換を行えばよい。話速変換処理は、例えば、TDHSや、PICOLAなどの公知の話速変換技術を適用すればよい。
次に、キーワード抽出処理について詳しく説明する。図5は、実施例1におけるキーワード抽出処理の一例を示すフローチャートである。図5に示すステップS201で、キーワード抽出部106は、聴取対象の音声データのジャンルに対応するドキュメントの各形態素を、キーワード学習用データ記憶部103から取得する。以下では、この取得されたキーワード学習用データを、聴取対象音声用キーワード学習用データとも呼ぶ。
ステップS202で、キーワード抽出部106は、音声認識の認識結果から、認識結果内をサーチすることで形態素を順次抽出する。以下では、抽出された形態素をキーワード候補とも呼ぶ。
ステップS203で、キーワード抽出部106は、ドキュメント毎に形態素に分割された聴取対象音声用キーワード学習用データを用いてTF−IDF処理を行い、キーワード候補のTF−IDF値を算出する。
TF−IDF値xi,jは、以下の式(1)で表される。
Figure 2013148795
ステップS204で、キーワード抽出部106は、TF−IDF値xi,jと第一の閾値とを比較し、TF−IDF値xi,jが第一の閾値以上であるかを判定する。TF−IDF値xi,jが第一の閾値以上であれば(ステップS204−YES)ステップS205に進み、TF−IDF値xi,jが第一の閾値未満であれば(ステップS204−NO)ステップS202に戻る。
ステップS205で、キーワード抽出部106は、そのキーワード候補はキーワードと判定して認識結果内での時刻情報とともに抽出する。キーワード抽出部106は、抽出したキーワードと時刻情報とを音声処理用キーワードデータに追加する。
ステップS206で、キーワード抽出部106は、以上の処理を認識結果内の全形態素(全キーワード候補)に対して行ったかを判定する。全形態素に対して行っていれば(ステップS206−YES)キーワード抽出処理を終了し、全形態素に対して行っていなければ(ステップS206−NO)上記処理を繰り返すため、ステップS202に戻る。よって、このキーワード抽出処理により、音声処理用キーワードデータが作成される。
以上、実施例1によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。また、実施例1によれば、例えば録音音声の視聴時間の短縮・重要度別キーワード部分の高速検索、自動抽出されたキーワードに応じた自動話速調整など、話速変換技術を利用した装置の性能向上に寄与することができる。
また、実施例1によれば、話速変換して聴取する音声データをあらかじめ音声認識し、音声データに関するジャンル情報を用いて音声認識結果を統計処理することで、発話内容の重要度に合わせて、話速変換による音声聴き取りを効率よく行うことができる。
[実施例2]
次に、実施例2における音声処理装置について説明する。実施例2では、学習用データとして、聴取履歴に基づく音声認識結果のデータを用いる。以下では、このデータを聴取履歴に基づく認識結果データとも呼ぶ。聴取履歴に基づく認識結果データとは、過去に聴取者が聴取した音声データの音声認識結果のうち、聴取の際に再生速度を通常再生速度よりも遅くして聴取した部分をジャンル情報毎に集めたものである。通常再生速度よりも遅くして聴取した部分は、聴取者が特に注意して聴き取ろうとした部分であると推定される。
<構成>
図6は、実施例2における音声処理装置2の概略構成の一例を示すブロック図である。図6に示す音声処理装置2は、認識結果データ記憶部201と、履歴キーワード抽出部202と、履歴キーワード記憶部203と、音声認識部204と、認識結果記憶部205と、キーワード抽出部206と、音声処理用キーワードデータ記憶部207と、話速変換部208とを有する。
認識結果データ記憶部201は、聴取履歴に基づく認識結果データを記憶する。聴取履歴に基づく認識結果データは、ジャンル毎に、通常再生速度よりも遅く再生された部分、例えば、話速変換が行われた部分を集めたデータである。
履歴キーワード抽出部202は、聴取履歴に基づく認識結果データから、話速変換が行われた部分に含まれる各形態素の出現頻度を内容語に限ってカウントし、ジャンル情報毎に履歴キーワードデータを作成する。内容語とは、品詞が名詞や形容詞など意味がある形態素を示す。
履歴キーワード抽出部202は、内容語として抽出したキーワードと、このキーワードの履歴回数とを関連付けた履歴キーワードデータを履歴キーワードデータ記憶部203に記録する。
履歴キーワード記憶部203は、履歴キーワードデータを履歴キーワード抽出部202により書き込まれ、記憶する。
図7は、履歴キーワードデータの一例を示す図である。図7に示す履歴キーワードデータは、ジャンル情報が「スポーツ」の場合の履歴キーワードデータの例を示す。図7に示す例では、聴取履歴に基づく認識結果データのうち、キーワードを示す「MLB」、「プレミアリーグ」の出現回数(履歴回数)がそれぞれ1024回、1001回であることを示している。
図6に戻り、音声認識部204と認識結果記憶部205とは、実施例1と同様であるため、その説明を省略する。
キーワード抽出部206は、聴取対象の音声データのジャンル情報を取得し、また、このジャンル情報に対応する履歴キーワードデータを履歴キーワードデータ記憶部203から取得する。また、キーワード抽出部206は、認識結果記憶部205から認識結果を取得する。
キーワード抽出部206は、音声データのジャンルに対応する履歴キーワードデータに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。
キーワード抽出部206は、例えば、認識結果に含まれる形態素が、履歴キーワードデータにも含まれ、さらにその出現回数が第二の閾値以上である場合に、この形態素をキーワードとし、時刻情報とともに音声処理用キーワードデータとする。第二の閾値は、予め設定された値であり、実験などにより適切な値が設定されればよい。キーワード抽出部206は、音声処理用キーワードデータを音声処理用キーワードデータ記憶部207に記録する。
音声処理用キーワードデータ記憶部207は、音声処理用キーワードデータをキーワード抽出部206から書き込まれ、記憶する。なお、音声処理用キーワードデータに含まれるキーワードは、同ジャンルの音声データにおいて通常再生速度よりも遅い速度で過去に再生された回数が第二の閾値以上である部分(形態素)を表す。
話速変換部208は、聴取対象の音声データを話速変換して再生(聴取)する際、音声処理用キーワードデータに含まれる時刻情報に基づいて、各キーワードの開始時刻へスキップ再生したり、各キーワードの発声区間の再生速度を自動的に遅くしたりする。これにより、話速変換による音声聴き取りを聴取履歴に基づいて聴取者の好みに応じたものにすることが可能となる。
<動作>
次に、実施例2における音声処理装置2の動作について説明する。実施例2における音声処理装置2の音声処理は、図4に示す処理と基本的に同様であるため、その説明を省略する。実施例1と異なる処理は、キーワード抽出処理である。以下、実施例2におけるキーワード抽出処理について説明する。
図8は、実施例2におけるキーワード抽出処理の一例を示すフローチャートである。図8に示すステップS301で、キーワード抽出部206は、聴取対象の音声データのジャンルに対応する履歴キーワードデータを、履歴キーワードデータ記憶部203から取得する。この履歴キーワードデータを、聴取対象音声用履歴キーワードデータとも呼ぶ。
ステップS302で、キーワード抽出部206は、音声認識の認識結果から、認識結果内をサーチすることで形態素を順次抽出する。以下では、抽出された形態素をキーワード候補とも呼ぶ。
ステップS303で、キーワード抽出部206は、そのキーワード候補が聴取対象音声用履歴キーワードデータ内に存在するかを判定する。キーワード候補が聴取対象音声用履歴キーワードデータ内に存在すれば(ステップS303−YES)ステップS304に進み、キーワード候補が聴取対象音声用履歴キーワードデータ内に存在しなければ(ステップS303−NO)ステップS302に戻る。
ステップS304で、キーワード抽出部206は、キーワード候補の履歴回数(出現回数)が第二の閾値以上であるかを判定する。履歴回数が第二の閾値以上であれば(ステップS304−YES)ステップS305に進み、履歴回数が第二の閾値未満であれば(ステップS304−NO)ステップS302に戻る。
ステップS305で、キーワード抽出部206は、そのキーワード候補はキーワードと判定して認識結果内での時刻情報とともに抽出する。キーワード抽出部206は、抽出したキーワードと時刻情報とを音声処理用キーワードデータに追加する。
ステップS306で、キーワード抽出部206は、以上の処理を認識結果内の全形態素(全キーワード候補)に対して行ったかを判定する。全形態素に対して行っていれば(ステップS306−YES)キーワード抽出処理を終了し、全形態素に対して行っていなければ(ステップS306−NO)上記処理を繰り返すため、ステップS302に戻る。よって、このキーワード抽出処理により、音声処理用キーワードデータが作成される。
以上、実施例2によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。また、実施例2によれば、例えば話速変換による音声聴き取りを、聴取者の過去の聴取履歴に基づいて、聴取者の好みに応じたものにすることができる。
[実施例3]
図9は、実施例3における情報処理装置3の構成の一例を示すブロック図である。情報処理装置3は、上述した実施例1及び実施例2で説明した音声処理をソフトウェアで実装した装置の一例である。
図9に示すように、情報処理装置3は、制御部301、主記憶部302、補助記憶部303、ドライブ装置304、ネットワークI/F部306、入力部307、表示部308を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
制御部301は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部301は、主記憶部302又は補助記憶部303に記憶された音声処理のプログラムを実行する演算装置である。制御部301は、入力部307や記憶装置からデータを受け取り、演算、加工した上で、表示部308や記憶装置などに出力する。
制御部301は、実施例1及び実施例2の音声処理のプログラムを実行することで、各実施例で説明した音声処理を実現することができる。
主記憶部302は、ROM(Read Only Memory)やRAM(Random Access Memory)などである。主記憶部302は、制御部301が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部303は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置304は、記録媒体305、例えばフレキシブルディスクからプログラムを読み出し、記憶装置にインストールする。
また、記録媒体305に、所定のプログラムを格納し、この記録媒体305に格納されたプログラムはドライブ装置304を介して情報処理装置3にインストールされる。インストールされた所定のプログラムは、情報処理装置3により実行可能となる。
ネットワークI/F部306は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器と情報処理装置3とのインターフェースである。
入力部307は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部308の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部307は、ユーザが制御部301に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部308は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等により構成され、制御部301から入力される表示データに応じた表示が行われる。
なお、図1や図6に示す各記憶部は、例えば主記憶部302又は補助記憶部303により実現されうる。また、図1や図6に示す各記憶部以外の構成は、例えば制御部301及びワークメモリとしての主記憶部302により実現されうる。なお、話速変換部208は、既存の話速変換処理回路を用いることもできる。なお、実施例1のキーワード学習用データ及び実施例2の履歴用キーワードデータは、総称してキーワードデータとも称す。
情報処理装置3で実行されるプログラムは、実施例1及び実施例2で説明した記憶部以外の各部を含むモジュール構成となっている。実際のハードウェアとしては、制御部301が補助記憶部303からプログラムを読み出して実行することにより上記各部のうち1又は複数の各部が主記憶部302上にロードされ、1又は複数の各部が主記憶部302上に生成されるようになっている。
このように、上述した実施例1及び実施例2で説明した音声処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した音声処理を実現することができる。
また、このプログラムを記録媒体305に記録し、このプログラムが記録された記録媒体305をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体305は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。
1、2 音声処理装置
3 情報処理装置
101 学習用データ記憶部
102 形態素解析部
103 キーワード学習用データ記憶部
104、204 音声認識部
105、205 認識結果記憶部
106、206 キーワード抽出部
107、207 音声処理用キーワードデータ記憶部
108、208 話速変換部
201 認識結果データ記憶部
202 履歴キーワード抽出部
203 履歴キーワードデータ記憶部
301 制御部
302 主記憶部
303 補助記憶部

Claims (5)

  1. 学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、
    入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、
    前記音声データのジャンルに対応する前記キーワードデータに含まれる各形態素と、前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、
    前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換部と、
    を備える音声処理装置。
  2. 前記学習用データは、ジャンルが関連付けられた複数のドキュメントであり、
    前記学習用データに対して形態素解析を行う形態素解析部をさらに備える請求項1記載の音声処理装置。
  3. 前記学習用データは、再生された音声データに対し、話速変換が行われた部分がジャンル毎に集められたデータであり、
    前記キーワードデータに含まれる形態素は、前記話速変換が行われた部分の形態素から抽出されたキーワードであり、
    前記キーワードデータはさらに、前記キーワードの出現回数が関連付けられ、
    前記抽出部は、
    前記出現回数が閾値以上のキーワード及び該キーワードに対応する時刻情報を抽出する請求項1記載の音声処理装置。
  4. 前記話速変換部は、
    前記音声処理対象のキーワードの再生が2回目以上である場合、1回目の話速とは異なる話速に変換する請求項1乃至3いずれか一項に記載の音声処理装置。
  5. 入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識ステップと、
    前記音声データのジャンルに対応する各形態素を、学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部から取得する取得ステップと、
    前記取得された各形態素と前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出ステップと、
    前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換ステップと、
    をコンピュータに実行させるためのプログラム。
JP2012010483A 2012-01-20 2012-01-20 音声処理装置及びプログラム Active JP5802139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012010483A JP5802139B2 (ja) 2012-01-20 2012-01-20 音声処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012010483A JP5802139B2 (ja) 2012-01-20 2012-01-20 音声処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013148795A true JP2013148795A (ja) 2013-08-01
JP5802139B2 JP5802139B2 (ja) 2015-10-28

Family

ID=49046340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012010483A Active JP5802139B2 (ja) 2012-01-20 2012-01-20 音声処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5802139B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049311A (ja) * 2013-08-30 2015-03-16 ブラザー工業株式会社 情報処理装置、話速データ生成方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212665A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 話速可変装置及び話速変換方法
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005148307A (ja) * 2003-11-13 2005-06-09 Ricoh Co Ltd 話速変換装置、話速変換方法、プログラム及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212665A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 話速可変装置及び話速変換方法
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005148307A (ja) * 2003-11-13 2005-06-09 Ricoh Co Ltd 話速変換装置、話速変換方法、プログラム及び記録媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200100642004; 岡本  東: '文書間の関係に基づくキーワード自動抽出の検討' 情報処理学会研究報告 第99巻第102号, 19991130, 23-30頁, 社団法人情報処理学会  Information Processing Socie *
CSNG200100868001; 古井  貞煕: '音声トランスクリプションのこれまでと今後の展望' 電子情報通信学会論文誌  (J83-D-II) VOL.J83-D-II NO.11, 20001125, 2059-2067頁, 社団法人電子情報通信学会  THE INSTITUTE OF ELECTRO *
CSNG201000534002; 横山  祥恵: '高齢者向け対話インタフェース' 情報処理学会研究報告  平成21年度▲6▼  [DVD-ROM] Vol.2010-SLP-80 No.4, 20100415, 1-6頁, 社団法人情報処理学会 *
JPN6015007595; 古井  貞煕: '音声トランスクリプションのこれまでと今後の展望' 電子情報通信学会論文誌  (J83-D-II) VOL.J83-D-II NO.11, 20001125, 2059-2067頁, 社団法人電子情報通信学会  THE INSTITUTE OF ELECTRO *
JPN6015007596; 横山  祥恵: '高齢者向け対話インタフェース' 情報処理学会研究報告  平成21年度▲6▼  [DVD-ROM] Vol.2010-SLP-80 No.4, 20100415, 1-6頁, 社団法人情報処理学会 *
JPN6015007598; 岡本  東: '文書間の関係に基づくキーワード自動抽出の検討' 情報処理学会研究報告 第99巻第102号, 19991130, 23-30頁, 社団法人情報処理学会  Information Processing Socie *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049311A (ja) * 2013-08-30 2015-03-16 ブラザー工業株式会社 情報処理装置、話速データ生成方法、及びプログラム

Also Published As

Publication number Publication date
JP5802139B2 (ja) 2015-10-28

Similar Documents

Publication Publication Date Title
US10282162B2 (en) Audio book smart pause
EP3522151B1 (en) Method and device for processing dual-source audio data
US10977299B2 (en) Systems and methods for consolidating recorded content
US11295069B2 (en) Speech to text enhanced media editing
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
WO2019148585A1 (zh) 会议摘要生成方法以及装置
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US8868419B2 (en) Generalizing text content summary from speech content
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
US12027171B2 (en) Creating a printed publication, an e-book, and an audio book from a single file
CN109858005A (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
US20140129221A1 (en) Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
JP5802139B2 (ja) 音声処理装置及びプログラム
Neergaard et al. Graph theoretic approach to Mandarin syllable segmentation
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2021017302A1 (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
Yasmin et al. Automatic Speech Summarization Without Linguistic Knowledge Based on Frame Selection Through Acoustic Features
KR102389776B1 (ko) 요청시 오디오 레코딩으로의 보충적 오디오 콘텐츠의 동적 삽입
CN108595470A (zh) 音频段落收藏方法、装置、系统及计算机设备
CN1886726A (zh) 转录音频信号的方法和设备
Yasmin et al. Automatic Speech Summarization Without Linguistic Knowledge Based on Frame Selection Through Acoustic
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
CN115718800A (zh) 一种数据处理方法、装置、电子设备及存储介质
Milde et al. Demonstrating ambient search: Implicit document retrieval for speech streams

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150828

R150 Certificate of patent or registration of utility model

Ref document number: 5802139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250