以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付した。
上述のように、音声を文字列に変換する音声認識の技術が開発されている。音声認識では、例えばユーザが何らかの語句を発声し、音声を入力すると、その音声の発音を認識し文字列に変換する。この様な音声認識において、更に、音声中の重要な部分を抽出することができれば便利である。例えば、知人との電話で、待ち合わせの日取りや場所を決める会話をしたとする。この場合に、会話中に登場した語句が認識され文字列に変換されるだけでなく、登場した語句のうちで重要な単語(例えば、ここでは待ち合わせの日取り、場所など)を抽出し、ユーザに提示する。このような事ができれば、それらの重要と判定された単語を用いて、ユーザは容易に予定表に予定を登録したり、会話の内容のメモを作成したりすることが可能になり、便利である。或いは、別の例として、録音した音声中の重要な部分を抽出することができれば、録音した音声の中から重要な部分を掻い摘んで要約等を作成することが可能となり、ユーザが例えば議事録等を作成する際にかかる時間を短縮することが可能となる。そのため、音声中の所定の音声区間の重要度を評価することは有用である。
音声中の所定の音声区間の重要度を評価するために、音声中の発話者の話し方を特徴付ける値(以降、特徴値とも呼ぶ)を用いることが考えられる。特徴値としては、例えば、音声の強度(パワー)、抑揚、及び話速などを用いることが考えられる。例えば、音声の強度(パワー)を用いる場合について述べると、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではない内容を話しているときよりも大きな声を出す傾向がある。そのため、例えば、音声強度に対して閾値を設定し、音声中の或る音声区間が閾値以上の音声強度で話された場合には重要であると判定し、閾値よりも小さな音声強度で話された場合には重要ではないと判定する。例えば、この様に構成することで、音声中の音声区間の重要度を評価することが考えられる。即ち、例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値に対して閾値を設定し、その閾値を用いて特徴値を評価することで、音声中の音声区間の重要度を評価することが考えられる。また更に、音声認識により音声から認識された単語に対応する音声区間の重要度を評価することで、単語の重要度を評価することも考えられる。
しかしながら、この様な重要度の評価において用いる特徴値(例えば、音声の強度、抑揚、及び話速)は、発話者によって、或いは、同一の発話者であっても、その体調や気分、又は居る環境などによってさまざまな値を取り得る。そのため、例えば、発話者が異なる音声、或いは同一の発話者であっても、その体調や気分、又は居る環境などが異なる状況で得られた音声に対して、特定の値を閾値として用いて重要度を評価しようとしても、その重要度に十分な確度が得られない可能性がある。
例えば、大きな声で早口で話し、抑揚も大きくつけて話す傾向のある人物が発話した音声と、小さな声でゆっくりと話し、抑揚も小さくつけて話す傾向のある人物が発話した音声とを、同じ閾値で評価しようとしても、その重要度を高い信頼性で得ることは難しい。そのため、例えば、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことのできる技術が望まれる。
そこで、いくつかの実施形態では、音声中に登場する不要語を発話している音声区間の特徴値に基づいて閾値を設定することで、個々の音声に適した個別の閾値を設定し、重要度を評価することを可能とする。
まず、不要語について説明する。一般に、話し言葉には、書き言葉には登場しない単語が登場する。例えば、発話者の言いよどみの際に発声される「いや」、「あの」、「えー」、や「えーと」などの単語を含む間投詞(感動詞)は、書き言葉では一般には登場しない単語であるが、話し言葉には数多く登場する。また、これらの単語は話の内容とは無関係であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話される際に発話者により強調して発話されにくい傾向がある。この様な発話される際に発話者により強調して発話されにくい傾向のある単語を、以降の説明では不要語と呼ぶ。不要語は、発話する際に発話者により強調して発話されにくい傾向のある単語であれば、上述の間投詞に分類される単語の他にも、例えば、「だから」などの接続詞に分類される単語等を含んでいてもよい。
以下で例示するいくつかの実施形態では、これらの発話する際に発話者により強調されにくい傾向がある不要語を発話している音声区間の音声から特徴値を取得し、その特徴値に基づいて閾値を算出する。そして、得られた閾値を用いて、音声中の音声区間の重要度の評価を行う。ここで、重要度の評価に用いる閾値は、個々の音声に基づいて動的に算出されるため、複数の音声に対して特定の閾値を用いて重要度を算出する場合と比較して、高い確度で重要度を評価することができる。
図1は、いくつかの実施形態に係る情報処理装置1の機能ブロック構成を例示する図である。情報処理装置1は、例えば、制御部100及び記憶部110を含んでいる。制御部100は、例えば、音声認識部111、特徴値算出部112、不要語検出部113、不要語音声切出部114、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117などの機能部101を含んでいる。情報処理装置1の記憶部110は、例えば、プログラム120、並びに後述する辞書情報300、及び不要語辞書情報400を記憶している。情報処理装置1の制御部100は、プログラム120を読み出して実行することで例えば音声認識部111、特徴値算出部112、不要語検出部113、及び不要語音声切出部114などの機能部101として機能する。また、情報処理装置1の制御部100は、プログラム120を読み出して実行することで例えば、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117などの機能部101として機能する。これらの各機能部101の詳細及び記憶部110に格納されている情報130の詳細については後述する。
図2は、図1の機能部101の各部によって実行される重要度算出の流れを例示する図である。例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データから制御部100へと音声信号が入力されると、音声認識部111は、入力されている音声信号に対して音声認識を行い、発話されている文字列を認識する処理を実行する。続いて、音声認識部111は、認識した文字列と、例えば記憶部110に記憶されている辞書情報300に登録されている単語とのマッチングを行い、音声中で発話されている単語を検出する。音声認識部111は、単語を検出した場合、検出した単語を不要語検出部113及び単語重要度算出部117に随時出力する。特徴値算出部112は、制御部100に入力されている音声信号に対して、所定の音声区間毎に例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値を算出する処理を実行し、得られた特徴値を音声区間重要度算出部116に出力する。
不要語検出部113は、例えば、音声認識部111から単語が入力されると、入力された単語が、発話する際に発話者により強調されにくい傾向のある不要語であるか否かを判定する。そして、不要語検出部113は、判定結果である不要語検出情報を不要語音声切出部114へと出力する。なお、不要語か否かの判定は、例えば、音声認識部111から入力された単語と一致する単語が、記憶部110に格納されている不要語辞書情報400に登録されているか否かにより判定されてよい。
不要語音声切出部114は、例えば、制御部100に入力されている音声信号を記憶部110にバッファリングする。そして、不要語音声切出部114は、不要語検出部113から不要語であることを示す不要語検出情報が入力された際に、その不要語が発話されている音声区間の音声データを、バッファリングした音声データから切り出す。続いて、不要語音声切出部114は、切り出した音声データを閾値設定部115へと出力する。
閾値設定部115は、例えば、不要語音声切出部114から入力された、不要語が発話されている音声区間の音声の特徴値を算出する。そして、閾値設定部115は、例えば、算出された不要語が発話されている音声区間の音声の特徴値を基に、重要度の評価に用いる閾値を算出し、音声区間重要度算出部116へと出力する。音声区間重要度算出部116は、閾値設定部115から得られた閾値と、特徴値算出部112で算出された所定の音声区間に対する特徴値とを用いて、その所定の音声区間の重要度を算出し、得られた所定の音声区間の重要度を単語重要度算出部117に出力する。単語重要度算出部117は、例えば、音声区間重要度算出部116で算出された所定の音声区間毎の重要度を用いて、音声認識部111で検出された単語の重要度を算出し、単語を、その単語の重要度とともに出力する。音声区間重要度算出部116は、例えば、重要度が付加された単語を記憶部110に出力し、記憶する。
以上のようにして、いくつかの実施形態においては不要語が発話されている音声区間の音声に対して算出された特徴値に基づいて閾値を設定し、音声の重要度を評価する。従って、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことができる。以下、各機能部による処理の詳細を説明する。
図3は、辞書情報300を例示する図である。図3の例では辞書情報300には、単語情報301が登録されている。単語情報301は、例えば、単語と、その読み(読み仮名)とを含み、これらの情報は単語情報301により対応付けられている。音声認識部111は、例えば、音声から音声認識された文字列と、辞書情報300に登録されている単語情報301の読みとが一致するか否かを判定し、一致する単語を特定することで、音声中で発話されている単語を検出してもよい。また、音声認識部111は、音声認識された文字列中の複数の単語の相互関係から、音声中の単語の検出精度を向上させる処理を実行してもよい。或いは、既知の音声認識技術で用いられる音声中の単語を検出する技術を、いくつかの実施形態における音声からの単語の検出に利用してもよい。なお、辞書情報300には、後述する不要語辞書情報400に登録されている不要語も登録されている。
図4は、不要語辞書情報400を例示する図である。図4の例では不要語辞書情報400には、不要語情報401が登録されている。不要語情報401は、例えば、発話される際に発話者により強調されにくい傾向がある単語である不要語を含む。不要語は、例えば、接続詞及び間投詞に分類される単語などを含んでいてよい。不要語検出部113は、例えば、音声認識部111から入力される単語と、記憶部110に記憶されている不要語辞書情報400の不要語情報401に含まれる不要語とが一致するか否かを判定し、一致する場合に、不要語を検出したと判定してもよい。
図5は、不要語検出部113によって実行される不要語検出処理の動作フローを例示する図である。図5の不要語検出処理の動作フローは、例えば、不要語検出部113が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、音声認識部111で検出された単語が不要語検出部113へと入力される度に、図5の不要語検出処理は開始する。
ステップS501において、不要語検出部113は、音声認識部111から入力された単語を読み込む。ステップS502において不要語検出部113は、ステップS501で読み込んだ単語が、不要語辞書情報400に存在するか否かを判定する。単語が不要語辞書情報400に存在する場合(ステップS502がYES)、不要語検出部113は不要語を検出したことを示す不要語検出情報を不要語音声切出部114に出力し、本動作フローは終了する。一方、読み込んだ単語が不要語辞書情報400に存在していない場合(ステップS502がNO)、不要語検出部113は不要語を検出していないことを示す不要語検出情報を不要語音声切出部114に出力し、本動作フローは終了する。一実施形態においては、不要語検出部113は、不要語を検出した場合には不要語検出情報として「1」を、一方、検出していない場合には不要語検出情報として「0」を不要語音声切出部114に出力するように構成してもよい。
図6は、不要語音声切出部114によって実行される不要語音声切出処理の動作フローを例示する図である。図6の不要語音声切出処理の動作フローは、例えば、不要語音声切出部114が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語検出部113から出力された不要語検出情報が不要語音声切出部114に入力される度に、図6の不要語音声切出処理は開始する。なお、一実施形態において、不要語音声切出部114は、制御部100に入力されている音声信号を記憶部110にバッファリングする処理も実行する。それにより、記憶部110には、制御部100に現在入力されている音声信号から例えば3秒間分などの所定の期間遡った時点までの音声データがバッファリングされる。
ステップS601において不要語音声切出部114は、不要語検出部113から入力された不要語検出情報を読み込む。ステップS602において不要語音声切出部114は、読み込んだ不要語検出情報が、不要語を検出したことを表しているか否かを判定する。一実施形態においては、不要語音声切出部114は、不要語検出情報の値が「1」である場合には、不要語を検出したことを表していると判定し、「0」である場合には不要語を検出していないことを表していると判定してもよい。不要語検出情報が不要語を検出していないことを表している場合(ステップS602がNO)、本動作フローは終了する。一方、不要語検出情報が不要語を検出したことを表している場合(ステップS602がYES)、フローはステップS603へと進む。ステップS603において不要語音声切出部114は、記憶部110にバッファリングしている音声データから、ステップS601で読み込んだ不要語検出情報において不要語として検出された単語の音声区間を切り出して閾値設定部115へと出力する。一実施形態においては、不要語を検出したことを表す不要語検出情報が入力された時刻から所定の期間遡った時刻までの音声区間の音声データを切り出し、閾値設定部115へと出力する。不要語音声切出部114が、閾値設定部115へと切り出した音声データを出力すると、本動作フローは終了する。
なお、上記の不要語が発話されている音声区間である可能性の高い所定の期間の長さは、例えば、記憶部110にバッファリングされている音声データの時間長を超えない範囲に設定される。一実施形態においては、この所定の期間の長さは、ステップS601で検出された不要語の文字列の長さ又は音節数と、一般的な話速の平均速度などに基づいて不要語が発話されている音声区間の長さを見積もることで設定されてよい。
図7は、以上の図3から図6を参照して述べた処理による不要語が発話されている音声区間の音声データの切り出しを例示する図である。図7において、tは、例えば、音声信号の入力が開始してからの経過時間である。音声認識結果701は、入力される音声信号に対して音声認識部111が音声認識を実行した結果を示しており、図示されるように入力された音声から単語が時系列に沿って順次検出されている。なお、図7の例では、「いや」の単語が検出された状況を示している。不要語検出情報702は、ステップS503又はステップS504にて不要語検出部113から出力される不要語検出情報であり、音声中で認識された単語に対する不要語検出情報が時系列に沿って示されている。なお、図7の例では、不要語検出情報の値:1は検出された単語が不要語であることを表しており、0は不要語ではないことを表している。例えば、図7では、音声認識された「いや」に対して「1」が判定されており、これは、「いや」が不要語であることを表している。音声信号703は、不要語音声切出部114によって例えば記憶部110にバッファリングされている音声信号を表している。
図7に示す例では、音声信号は現在単語「いや」が発話し終わったタイミングに位置している。この単語「いや」が発話し終わったタイミングで、音声認識部111は、音声認識結果701として単語「いや」を検出しており、その認識結果に対して、不要語検出部113が単語「いや」が不要語であることを示す「1」を出力している。この場合に、不要語音声切出部114は、不要語である「いや」が発話されている音声区間の音声データの切り出しを行うが、現在、音声信号は不要語「いや」を発話し終わっているタイミングである。そのため、「いや」が発話されている音声区間の音声データを切り出すためには、音声データを遡って切り出しを行う必要がある。そこで、一実施形態においては、現在入力されている音声信号の位置から例えば3秒間分などの所定の期間遡った時点までの音声データを記憶部110などにバッファリングしている。そして、不要語音声切出部114は不要語が検出されたタイミングで、バッファリングしておいた音声データから所定期間遡って音声データを切り出す。図7では、例えば、この様にして不要語「いや」の音声区間の音声データを切り出している。
図8は、閾値設定部115によって実行される閾値設定処理の動作フローを例示する図である。図8の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、閾値設定処理は開始する。なお、図8では、特徴値として、音声の強度(パワー)を用いる場合を例示する。
ステップS801において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS802で閾値設定部115は、読み込んだ音声データに含まれる音声信号の強度を算出する。音声信号の強度は、例えば以下の式1で得ることができる。
ここで、Pは求めたい音声の強度である。xは音声信号をサンプリングしたときの各サンプルの値である。Nは、強度を算出する音声区間において行ったサンプリング数である。例えば、8kHzでサンプリングを行い、強度を算出する音声区間が20msecであるとする。この場合、8000サンプル/sec×0.2sec=160サンプル(N=160)である。なお、ステップS802で強度を算出する音声区間は、例えば、不要語音声切出部114が切り出す音声データの長さであってもよい。
続いて、ステップS803において閾値設定部115は、平均強度を算出する。上述のように図8の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS802にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップS803では、この切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の平均値を、平均強度として算出する。
平均強度は、例えば、以下の式2で算出されてよい。
Pua(t)=αPu(t)+(1-α)Pua(t-1) ・・・式2
ここで、tは、例えば、音声信号の入力が開始してから現在までに図8の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Pua(t)は、求めたい平均強度である。Pu(t)は、ステップS802で算出した強度である。Pua(t-1)は、前回の図8の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均強度の値である。なお、例えば、音声信号の入力が開始した以降に図8の動作フローが初めて実行される場合には、ステップS803では上記式2の計算を行わず、ステップS802で算出された強度をそのまま平均強度として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図8の動作フローが初めて実行される場合には、予め設定した所定値をPua(t-1)として用いてもよい。αは、前回の図8の動作フローの実行で算出された平均強度に、今回の図8の動作フローの実行でステップS802において算出された強度をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
ステップS804において閾値設定部115は、標準偏差を算出する。上述のように図8の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS802にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップS804では、この切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の標準偏差を算出する。
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の分散値を算出する。分散値は、例えば、以下の式3で算出されてよい。
σ2(t)=β(Pu(t)-Pua(t))2+(1-β)σ2(t-1) ・・・式3
ここで、tは、例えば、音声信号の入力が開始してから現在までに図8の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい分散値である。Pu(t)は、ステップS802で算出した強度である。Pua(t)は、ステップS803で算出した平均強度である。σ2(t-1)は、前回の図8の動作フローの実行時にステップS804で算出された分散値である。βは、前回の図8の動作フローの実行で算出された分散値に、今回の図8の動作フローの実行でステップS802において算出された強度の平均強度からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、音声強度の標準偏差:σを算出する。
ステップS805において、閾値設定部115は、ステップS803で算出した平均強度:Pua(t)と、ステップS804で算出した標準偏差:σとを用いて閾値を設定し、設定した閾値を音声区間重要度算出部116に出力し、本動作フローは終了する。なお、ステップS805において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Pua(t)+σ、及び第2の閾値:Pua(t)+1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS805で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Pua(t)+0.5σ、Pua(t)+0.8σ、Pua(t)+1.3σ、Pua(t)+2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均強度に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均強度に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、音声強度が強くなる傾向があるためである。
図9は、特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図9の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図9の動作フローは開始する。なお、図9の例では、特徴値として、音声の強度(パワー)を用いる場合を例示する。
ステップS901において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS902において特徴値算出部112は、読み込んだ所定期間の音声信号の強度:Pを算出する。音声の強度:Pは、例えば、上述の式1により算出することができる。
ステップS903で特徴値算出部112は、ステップS902で算出した強度を、音声区間重要度算出部116に出力し、フローはステップS901へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の音声強度を算出し、音声区間重要度算出部116に出力する。
図10は、音声区間重要度算出部116によって実行される重要度算出処理の動作フローを例示する図である。図10の重要度算出処理の動作フローは、例えば、音声区間重要度算出部116が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、閾値設定部115から閾値が音声区間重要度算出部116に入力されている状態で、特徴値算出部112から特徴値が入力されると、図10の動作フローは開始する。
ステップS1001において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、特徴値算出部112から入力される所定区間の音声信号の強度:Pである。また、閾値は、例えば、閾値設定部115で設定した閾値であり、ここでは、閾値として第1の閾値:Pua(t)+σ、及び第2の閾値:Pua(t)+1.5σの2つの閾値が入力されているものとする。
ステップS1002で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部116は、P ≧ Pua + σを満たすか否かを判定する。所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差:σを加算した第1の閾値よりも小さい場合(ステップS1002がNO)、フローはステップS1003へと進む。ステップS1003において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差:σを加算した第1の閾値以上である場合(ステップS1002がYES)、フローはステップS1004へと進む。
ステップS1004において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、P ≧ Pua + 1.5σを満たすか否かを判定する。所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差の1.5倍値:1.5σを加算した第2の閾値よりも小さい場合(ステップS1004がNO)、フローはステップS1005へと進む。ステップS1005において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差の1.5倍値:1.5σを加算した第2の閾値以上である場合(ステップS1004がYES)、フローはステップS1006へと進む。ステップS1006において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
以上の処理で出力される、音声信号の強度に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。強度に基づく所定区間の音声信号に対する重要度の評価値について、図11を参照し更に説明する。
図11は、特徴値が音声信号の強度である場合における重要度の評価について説明する図である。図11には、不要語の音声区間における音声強度の分布が示されている。上述のように、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きな声を出す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の強度は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の強度と比較して小さい値をとる傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均強度は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の強度の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度強度に強弱をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の強度の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい音声強度に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の音声強度が、基準となる不要語の音声信号の平均強度に標準偏差を加算した値以上の音声強度である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きな声で発話していることになる。従って、重要である可能性が高いと判定できる。
例えば、以上のような観点から、図8から図11に示す例では、発話者が、平均強度に標準偏差を加算した値よりも大きな強度で話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均強度に標準偏差の1.5倍を加算した値よりも大きな強度で話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。また、評価値は、本実施形態においては値が大きいほど重要である可能性が高いことを示すように構成している。
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均強度と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均強度及び標準偏差は、発話者の音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合に、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。従って、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。
続いて、図12から図14を参照して、特徴値として音声の抑揚を用いる場合の例を述べる。なお、特徴値として音声の抑揚を用いる場合、一実施形態においては、上記図8の閾値設定処理の動作フローの代わりに、以下で述べる図12の閾値設定処理を実行する。また、図9の特徴値算出処理の動作フローの代わりに、以下で述べる図13の特徴値算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。
図12は、閾値設定部115によって実行される閾値設定処理を例示する図である。図12の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、図12の閾値設定処理は開始する。
ステップS1201において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS1202で閾値設定部115は、読み込んだ音声データに含まれる音声信号の抑揚を算出する。音声信号の抑揚は、例えば読み込まれた音声信号の音声区間において、最も高い音と最も低い音との周波数の差分を算出することで得ることができる。
続いて、ステップS1203において閾値設定部115は、平均抑揚を算出する。上述のように図12の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1202にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップS1203では、この切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される音声の抑揚の平均値を、平均抑揚として算出する。
平均抑揚は、例えば、以下の式4で算出されてよい。
Iua(t)=αIu(t)+(1-α)Iua(t-1) ・・・式4
ここで、tは、例えば、音声信号の入力が開始してから現在までに図12の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Iua(t)は、求めたい平均抑揚である。Iu(t)は、ステップS1202で算出した抑揚である。Iua(t-1)は、前回の図12の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均抑揚の値である。なお、例えば、音声信号の入力が開始した以降に図12の動作フローが初めて実行される場合には、ステップS1203では上記式4の計算を行わず、ステップS1202で算出された抑揚をそのまま平均抑揚として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図12の動作フローが初めて実行される場合には、予め設定した所定値をIua(t-1)として用いてもよい。αは、前回の図12の動作フローの実行で算出された平均抑揚に、今回の図12の動作フローの実行でステップS1202において算出された抑揚をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
ステップS1204において閾値設定部115は、標準偏差を算出する。上述のように図12の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1202にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップS1204では、この切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される抑揚の標準偏差を算出する。
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される抑揚の分散値を算出する。分散値は、例えば、以下の式5で算出されてよい。
σ2(t)=β(Iu(t)-Iua(t))2+(1-β)σ2(t-1) ・・・式5
ここで、tは、例えば、音声信号の入力が開始してから現在までに図12の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい抑揚の分散値である。Iu(t)は、ステップS1202で算出した抑揚である。Iua(t)は、ステップS1203で算出した平均抑揚である。σ2(t-1)は、前回の図12の動作フローの実行時(即ち、t−1回目の実行時)にステップS1204で算出された分散値である。βは、前回の図12の動作フローの実行で算出された分散値に、今回の図12の動作フローの実行でステップS1202において算出された抑揚の平均抑揚からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、抑揚の標準偏差:σを算出する。
ステップS1205において、閾値設定部115は、ステップS1203で算出した平均抑揚:Iua(t)と、ステップS1204で算出した標準偏差:σとを用いて閾値を設定し、その閾値を音声区間重要度算出部116へと出力し、本動作フローは終了する。なお、ステップS1205において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Iua(t)+σ、及び第2の閾値:Iua(t)+1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS1203で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Iua(t)+0.5σ、Iua(t)+0.8σ、Iua(t)+1.3σ、Iua(t)+2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均抑揚に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均抑揚に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、抑揚が大きくなる傾向があるためである。
図13は、特徴値として音声の抑揚を用いる場合に特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図13の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図13の動作フローは開始する。
ステップS1301において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS1302において特徴値算出部112は、読み込んだ所定期間の音声信号の抑揚:Iを算出する。抑揚:Iは、例えば、読み込んだ所定期間の音声信号において、最も高い音と最も低い音との周波数の差分を算出することで得られてもよい。
ステップS1303で特徴値算出部112は、ステップS1302で算出した抑揚:Iを、音声区間重要度算出部116に出力し、フローはステップS1301へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の抑揚を算出し、音声区間重要度算出部116に出力する。
また、特徴値として音声の抑揚を用いる場合、音声区間重要度算出部116は、図10の動作フローにおいて、図12の動作フローで設定した閾値と、図13の動作フローで算出した抑揚:Iとを用いて重要度の算出を行う。
まず、ステップS1001において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図13の動作フローで算出した所定区間の音声信号の抑揚:Iである。また、閾値は、例えば、図12の動作フローにおいて閾値設定部115が設定した閾値であり、ここでは、閾値として第1の閾値:Iua(t)+σ、及び第2の閾値:Iua(t)+1.5σの2つが入力されているものとする。
ステップS1002で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部116は、I ≧ Iua + σを満たすか否かを判定する。所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差:σを加算した第1の閾値よりも小さい場合(ステップS1002がNO)、フローはステップS1003へと進む。ステップS1003において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差:σを加算した第1の閾値以上である場合(ステップS1002がYES)、フローはステップS1004へと進む。
ステップS1004において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、I ≧ Iua + 1.5σを満たすか否かを判定する。所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の1.5倍値:1.5σを加算した第2の閾値よりも小さい場合(ステップS1004がNO)、フローはステップS1005へと進む。ステップS1005において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の1.5倍値:1.5σを加算した第2の閾値以上である場合(ステップS1004がYES)、フローはステップS1006へと進む。ステップS1006において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
以上の処理で出力される、音声信号の抑揚に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。抑揚に基づく、所定区間の音声信号に対する重要度の評価値について、図14を参照し更に説明する。
図14は、特徴値が音声信号の抑揚である場合における重要度の評価について説明する図である。図14には、不要語の音声区間における抑揚の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きく抑揚をつけて話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の抑揚は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の抑揚と比較して小さい傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均抑揚は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の抑揚の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度抑揚をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の抑揚の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい抑揚に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の抑揚が、基準となる不要語の音声信号の平均抑揚に標準偏差を加算した値以上の抑揚である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きく抑揚をつけて発話していることになる。従って、重要である可能性が高いと判定できる。
例えば、以上のような観点から、図12から図14に示す例では、発話者が、平均抑揚に標準偏差を加算した値よりも大きな抑揚をつけて話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均抑揚に標準偏差 の1.5倍を加算した値よりも大きな抑揚をつけて話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均抑揚と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均抑揚及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。
続いて、図15から図19を参照して、特徴値として音声の話速を用いる場合の例を述べる。なお、特徴値として音声の話速を用いる場合、一実施形態においては、上記図8の閾値設定処理の動作フローの代わりに、以下で述べる図15の閾値設定処理を実行する。また、図9の特徴値算出処理の動作フローの代わりに、以下で述べる図16の特徴値算出処理の動作フローを実行する。更に、図10の重要度算出処理の動作フローの代わりに、図17の重要度算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。
図15は、実施形態に係る閾値設定処理を例示する図である。図15の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、閾値設定処理は開始する。
ステップS1501において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS1502で閾値設定部115は、読み込んだ音声データに含まれる音声信号の話速を算出する。音声信号の話速は、例えば読み込まれた音声信号の音声区間において1秒間当りのモーラ数(mora/sec)を算出することで得られてよい。ここで、モーラとは、例えば、韻律学または音韻論上の単位であり、1短音節に相当するとされる音の長さである。
続いて、ステップS1503において閾値設定部115は、平均話速を算出する。上述のように図15の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1502にて不要語を発話している音声区間の音声信号の話速が算出される。ステップS1503では、この切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される音声の話速の平均値を、平均話速として算出する。
平均話速は、例えば、以下の式6で算出されてよい。
Mua(t)=αMu(t)+(1-α)Mua(t-1) ・・・式6
ここで、tは、例えば、音声信号の入力が開始してから現在までに図15の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Mua(t)は、求めたい平均話速である。Mu(t)は、ステップS1502で算出した話速である。Mua(t-1)は、前回の図15の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均話速の値である。なお、例えば、音声信号の入力が開始した以降に図15の動作フローが初めて実行される場合には、ステップS1503では上記式6の計算を行わず、ステップS1502で算出された話速をそのまま平均話速として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図15の動作フローが初めて実行される場合には、予め設定した所定値をMua(t-1)として用いてもよい。αは、前回の図15の動作フローの実行で算出された平均話速に、今回の図15の動作フローの実行でステップS1502において算出された話速をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
ステップS1504において閾値設定部115は、標準偏差を算出する。上述のように図15の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1502にて不要語を発話している音声区間の音声信号の話速が算出される。ステップS1504では、この切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される話速の標準偏差を算出する。
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される話速の分散値を算出する。分散値は、例えば、以下の式7で算出されてよい。
σ2(t)=β(Mu(t)-Mua(t))2+(1-β)σ2(t-1) ・・・式7
ここで、tは、例えば、音声信号の入力が開始してから現在までに図15の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい話速の分散値である。Mu(t)は、ステップS1502で算出した話速である。Mua(t)は、ステップS1503で算出した平均話速である。σ2(t-1)は、前回の図15の動作フローの実行時(即ち、t−1回目の実行時)にステップS1504で算出された分散値である。βは、前回の図15の動作フローの実行で算出された分散値に、今回の図15の動作フローの実行でステップS1502において算出された話速の平均話速からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、話速の標準偏差:σを算出する。
ステップS1505において、閾値設定部115は、ステップS1503で算出した平均話速:Mua(t)と、ステップS1504で算出した標準偏差:σと用いて閾値を設定し、設定した閾値を音声区間重要度算出部116に出力し、本動作フローは終了する。なお、ステップS1505において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Mua(t) − σ、及び第2の閾値:Mua(t) −1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS1503で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Mua(t) −0.5σ、Mua(t) −0.8σ、Mua(t) −1.3σ、Mua(t) −2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均話速から減算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均話速から減算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、話速が遅くなる傾向があるためである。
図16は、特徴値として音声の話速を用いる場合に特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図16の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図16の動作フローは開始する。
ステップS1601において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS1602において特徴値算出部112は、読み込んだ所定期間の音声信号の話速:Mを算出する。話速:Mは、例えば、読み込んだ所定期間の音声信号において1秒間当りのモーラ数(mora/sec)を算出することで得られてもよい。
ステップS1603で特徴値算出部112は、ステップS1602で算出した話速:Mを、音声区間重要度算出部116に出力し、フローはステップS1601へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の話速を算出し、音声区間重要度算出部116に出力する。
また、特徴値として音声の話速を用いる場合、音声区間重要度算出部116は、図17の動作フローにおいて、図15の動作フローで設定した閾値と、図16の動作フローで算出した話速:Mとを用いて重要度の算出を行う。
まず、ステップS1701において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図16の動作フローで算出した所定区間の音声信号の話速:Mである。また、閾値は、例えば、図15の動作フローにおいて閾値設定部115が設定した閾値であり、ここでは、閾値として第1の閾値:Mua(t)−σ、及び第2の閾値:Mua(t)−1.5σの2つが入力されているものとする。
ステップS1702で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、M ≦ Mua - σを満たすか否かを判定する。所定区間の音声信号の話速:Mが不要語が検出された音声区間の音声信号の平均話速:Muaから標準偏差:σを減算した第1の閾値よりも大きい場合(ステップS1702がNO)、フローはステップS1703へと進む。ステップS1703において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の話速:Mが不要語が検出された区間の音声信号の平均話速Muaから標準偏差:σを減算した第1の閾値以下である場合(ステップS1702がYES)、フローはステップS1704へと進む。
ステップS1704において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、M ≦ Mua - 1.5σを満たすか否かを判定する。所定区間の音声信号の話速:Mが不要語が検出された音声区間の音声信号の平均話速:Muaから標準偏差の1.5倍値:1.5σを減算した第2の閾値よりも大きい場合(ステップS1704がNO)、フローはステップS1705へと進む。ステップS1705において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の話速:Mが不要語が検出された区間の音声信号の平均話速:Muaから標準偏差の1.5倍値:1.5σを減算した第2の閾値以下である場合(ステップS1704がYES)、フローはステップS1706へと進む。ステップS1706において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
以上の処理で出力される、音声信号の話速に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。話速に基づく、所定区間の音声信号に対する重要度の評価値について、図18を参照し更に説明する。
図18は、特徴値が音声信号の話速である場合における重要度の評価について説明する図である。図18には、不要語の音声区間における話速の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりもゆっくりと話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の話速は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の話速と比較して速い傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均話速は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の話速の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度話速に変化をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の話速の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて遅い話速に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の話速が、基準となる不要語の音声信号の平均話速から標準偏差を減算した値以下の話速である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著にゆっくりと発話していることになる。従って、重要である可能性が高いと判定できる。
例えば、以上のような観点から、図15から図18に示す例では、発話者が、平均話速から標準偏差を減算した値よりも遅い話速で話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均話速から標準偏差の1.5倍の値を減算した値よりも遅い話速で話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均話速と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均話速及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。
以上において特徴値として音声の強度、抑揚、及び話速を用いた場合のそれぞれについて、入力される音声信号の重要度を所定区間毎に算出する処理について説明した。これらの得られた所定区間毎の音声信号の重要度は、例えば、音声データに含まれる単語の重要度を評価するために用いることができる。図19は、実施形態に係る単語の重要度の評価処理を例示する図である。図19の動作フローは、例えば、制御部100が記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、音声認識部111が入力される音声信号から単語を検出すると、図19の動作フローは開始する。
ステップS1901において単語重要度算出部117は、音声認識部111で検出された単語が発話されている音声区間を特定する。ステップS1902において単語重要度算出部117は、特定した音声区間の重要度を算出する。上述のように音声区間重要度算出部116は、入力される音声信号の所定期間毎の重要度を算出し、単語重要度算出部117に出力する。ここで、重要度を算出する音声区間である所定区間を十分に短く設定することで、ステップS1901で特定した単語に対応する音声区間内に、重要度の算出が行われた所定区間が少なくとも1つは含まれるように構成することができる。そこで、一実施形態においては、ステップS1902において単語重要度算出部117は、単語に対応する音声区間内に存在する所定区間に対して算出された重要度を足し合わせ、重要度の合計値を算出する。続いて、単語重要度算出部117は、足し合わせに用いた重要度の個数で、算出した重要度の合計値を除算することで単語に対する重要度を算出してもよい。例えば以上の様にして、単語重要度算出部117は音声認識部111で検出された単語に対する重要度を算出してよい。ステップS1903において単語重要度算出部117は、音声認識部111から入力された単語に、ステップS1902で算出した重要度を付加して、例えば記憶部110に出力する。
以上でのべた図19の動作フローにより、音声認識部111で単語が認識されるたびに、その単語に対する重要度が算出され、重要度が付加された単語を記憶部110に記憶することができる。そのため、例えば、記憶部110に記憶された重要度が付加された単語を、重要度の高い順に並べ替え、情報処理装置1の表示装置の表示画面を介してユーザに提示する等の処理が可能になる。そのため、ユーザは重要度の高い単語を用いて、予定表の登録や、メモの作成等を簡便に行うことができ、情報処理装置1のユーザビリティを向上させることができる。
以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記したものに限定されるものではない。例えば、不要語が発話されている音声区間の音声の平均強度の算出、及び強度の標準偏差の算出に、上記式2及び式3を用いる例を説明した。しかしながら、平均強度の算出、及び強度の標準偏差の算出は、これに限定されるものではなく、例えば平均強度は、ステップS802で算出した強度を相加平均することにより算出されてもよい。抑揚及び話速を特徴値として用いる場合の平均抑揚、平均話速、抑揚の分散値と標準偏差、及び話速の分散値と標準偏差の算出についても、同様に式4〜式7に限定されるものではなく、例えば統計学の分野等で平均値、分散、標準偏差の算出に利用されているその他の算出法で算出されてもよい。
また、上記の説明では、特徴値として、音声の強度、抑揚、及び話速のいずれかを用いて重要度を算出する場合を例示したが、実施形態はこれに限定されるものではなく、音声の強度、抑揚、及び話速による重要度の算出は組み合わせて用いることができる。例えば、音声の強度、抑揚、及び話速のそれぞれで算出された重要度を足し合わせて、所定区間の音声信号の重要度や、単語の重要度を算出してもよい。
図20は、実施形態に係る情報処理装置1を実現するためのコンピュータ2000のハードウェア構成を例示する図である。図20の情報処理装置1を実現するためのハードウェア構成は、例えば、プロセッサ2001、メモリ2002、記憶装置2003、読取装置2004、通信インタフェース2006、入出力インタフェース2007、及び表示装置2010を備える。なお、プロセッサ2001、メモリ2002、記憶装置2003、読取装置2004、通信インタフェース2006、入出力インタフェース2007は、例えば、バス2008を介して互いに接続されている。
プロセッサ2001は、メモリ2002を利用して例えば上述の動作フローの手順を記述したプログラムを含むプログラム120を実行することにより、上述した各機能部の一部または全部の機能を提供する。例えば、制御部100は、プロセッサ2001であり、また、記憶部110は、例えばメモリ2002、記憶装置2003、及び着脱可能記憶媒体2005を含んでいる。プロセッサ2001は、例えば、記憶装置2003に格納されているプログラム120を読み出して実行することで、音声認識部111、特徴値算出部112、不要語検出部113、及び不要語音声切出部114として機能する。また、プロセッサ2001は、例えば、記憶装置2003に格納されているプログラム120を読み出して実行することで、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117として機能する。記憶装置2003には、例えば、辞書情報300、及び不要語辞書情報400が格納されている。
メモリ2002は、例えば半導体メモリであり、RAM領域及びROM領域を含んで構成される。記憶装置2003は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、又は外部記憶装置である。
読取装置2004は、プロセッサ2001の指示に従って着脱可能記憶媒体2005にアクセスする。着脱可能記憶媒体2005は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース2006は、プロセッサ2001の指示に従ってネットワーク2020を介してデータを送受信する。入出力インタフェース2007は、例えば、入力装置及び出力装置との間のインタフェースに相当する。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、及び音声を入力するマイクなどのデバイスである。出力装置は、例えばスピーカなどの音声出力装置である。また、図20に示す例では、入出力インタフェース2007には表示装置2010が接続されている。
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置1に提供される。
(1)記憶装置2003に予めインストールされている。
(2)着脱可能記憶媒体2005により提供される。
(3)プログラムサーバなどのサーバ2030から提供される。
以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態を成すことができることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。