JP6183147B2

JP6183147B2 - 情報処理装置、プログラム、及び方法

Info

Publication number: JP6183147B2
Application number: JP2013221341A
Authority: JP
Inventors: 達也福士; 遠藤　香緒里; 香緒里遠藤; 泰史染谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2017-08-23
Anticipated expiration: 2033-10-24
Also published as: JP2015082087A

Description

本発明は、情報処理装置、プログラム、及び方法に関する。

近年、音声を文字列に変換する音声認識の技術が開発されている。音声認識では、例えばユーザが何らかの語句を発話し、音声を入力すると、その音声から発話されている語句が認識され文字列に変換される。ユーザは音声認識の技術を利用することで、例えばキーボードやタッチパネルなどを用いなくとも、発話により情報を入力することができる。

これに関し、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供する技術が知られている。また、同一の話者の発声様態が多様に変化する場合の音声や話者が変わった場合の音声を良好に認識する技術が知られている。音声のイントネーションパターンまたは音の高低を用いて音声をテキストに変換するための方法および装置を提供する技術が知られている。ワードスポッティングにより語句を音声認識する場合に、音声でない部分が語句の一部として認識されることを防止する技術が知られている。（例えば、特許文献１〜特許文献４を参照）

国際公開ＷＯ２００８／０５０６４９号公報特開平７−５６５９５号公報特開平８−５０４９８号公報特開平１０−６３２８９号公報

この様な音声を文字列に変換する音声認識の技術において、所定の音声区間の音声の重要度を評価することが考えられる。例えば、会話の中で発話された語句などの重要度を適切に評価することができれば、音声認識された文字列の中から重要な単語を抽出することが可能となる。ユーザは抽出した重要な単語を用いて、例えば、会話の内容のメモや予定表等を簡便に作成することができる。この様な所定の音声区間の音声の重要度の評価を行うために、音声の重要度を評価するための指標として、例えば、音声の強度、抑揚、話速などの音声の発話の仕方を特徴付ける値を利用することが考えられる。しかしながら、音声の発話の仕方を特徴付ける特徴値は、発話を行う発話者によって、或いは同一の発話者であっても居る環境、及び体調などによってさまざまな値を示す。そのため、例えば、発話者が異なる音声、或いは同一の発話者であっても居る環境、及び体調などが異なる状況で得られた音声の重要度を、個々の音声に合わせて適切に評価することのできる技術は無かった。１つの側面では、本発明は、個々の音声に合わせて適切に重要度の評価を行うことのできる技術を提供することを目的とする。

本発明の一つの態様の情報処理装置は、特徴値算出部、不要語検出部、閾値設定部、及び音声区間重要度算出部を含む。特徴値算出部は、音声を特徴付ける第１の特徴値を、入力される音声信号の所定の音声区間に関して算出する。不要語検出部は、入力される音声信号に含まれている複数の単語のうちから、不要語を検出する。閾値設定部は、不要語が含まれている音声区間の音声を特徴付ける第２の特徴値を用いて閾値を設定する。音声区間重要度算出部は、閾値を用いて、各音声区間の音声の重要度を算出する。

音声認識技術において所定の音声区間の音声の重要度を評価する際に、個々の音声に合わせて適切に重要度を評価することができる。

いくつかの実施形態に係る情報処理装置の機能ブロック構成を例示する図である。実施形態に係る重要度算出の流れを例示する図である。辞書情報を例示する図である。不要語辞書情報を例示する図である。不要語検出処理の動作フローを例示する図である。不要語音声切出処理の動作フローを例示する図である。不要語が発話されている音声区間の音声データの切り出しを例示する図である。音声強度を用いる場合の閾値設定処理の動作フローを例示する図である。音声強度を用いる場合の特徴値算出処理の動作フローを例示する図である。音声強度を用いる場合の重要度算出処理の動作フローを例示する図である。音声信号の強度による重要度の評価について説明する図である。抑揚を用いる場合の閾値設定処理を例示する図である。抑揚を用いる場合の特徴値算出処理の動作フローを例示する図である。抑揚を用いる場合の重要度の評価について説明する図である。話速を用いる場合の閾値設定処理を例示する図である。話速を用いる場合の特徴値算出処理の動作フローを例示する図である。話速を用いる場合の重要度算出処理の動作フローを例示する図である。話速を用いる場合の重要度の評価について説明する図である。実施形態に係る単語の重要度の評価処理を例示する図である。実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。

以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付した。

上述のように、音声を文字列に変換する音声認識の技術が開発されている。音声認識では、例えばユーザが何らかの語句を発声し、音声を入力すると、その音声の発音を認識し文字列に変換する。この様な音声認識において、更に、音声中の重要な部分を抽出することができれば便利である。例えば、知人との電話で、待ち合わせの日取りや場所を決める会話をしたとする。この場合に、会話中に登場した語句が認識され文字列に変換されるだけでなく、登場した語句のうちで重要な単語（例えば、ここでは待ち合わせの日取り、場所など）を抽出し、ユーザに提示する。このような事ができれば、それらの重要と判定された単語を用いて、ユーザは容易に予定表に予定を登録したり、会話の内容のメモを作成したりすることが可能になり、便利である。或いは、別の例として、録音した音声中の重要な部分を抽出することができれば、録音した音声の中から重要な部分を掻い摘んで要約等を作成することが可能となり、ユーザが例えば議事録等を作成する際にかかる時間を短縮することが可能となる。そのため、音声中の所定の音声区間の重要度を評価することは有用である。

音声中の所定の音声区間の重要度を評価するために、音声中の発話者の話し方を特徴付ける値（以降、特徴値とも呼ぶ）を用いることが考えられる。特徴値としては、例えば、音声の強度（パワー）、抑揚、及び話速などを用いることが考えられる。例えば、音声の強度（パワー）を用いる場合について述べると、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではない内容を話しているときよりも大きな声を出す傾向がある。そのため、例えば、音声強度に対して閾値を設定し、音声中の或る音声区間が閾値以上の音声強度で話された場合には重要であると判定し、閾値よりも小さな音声強度で話された場合には重要ではないと判定する。例えば、この様に構成することで、音声中の音声区間の重要度を評価することが考えられる。即ち、例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値に対して閾値を設定し、その閾値を用いて特徴値を評価することで、音声中の音声区間の重要度を評価することが考えられる。また更に、音声認識により音声から認識された単語に対応する音声区間の重要度を評価することで、単語の重要度を評価することも考えられる。

しかしながら、この様な重要度の評価において用いる特徴値（例えば、音声の強度、抑揚、及び話速）は、発話者によって、或いは、同一の発話者であっても、その体調や気分、又は居る環境などによってさまざまな値を取り得る。そのため、例えば、発話者が異なる音声、或いは同一の発話者であっても、その体調や気分、又は居る環境などが異なる状況で得られた音声に対して、特定の値を閾値として用いて重要度を評価しようとしても、その重要度に十分な確度が得られない可能性がある。

例えば、大きな声で早口で話し、抑揚も大きくつけて話す傾向のある人物が発話した音声と、小さな声でゆっくりと話し、抑揚も小さくつけて話す傾向のある人物が発話した音声とを、同じ閾値で評価しようとしても、その重要度を高い信頼性で得ることは難しい。そのため、例えば、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことのできる技術が望まれる。

そこで、いくつかの実施形態では、音声中に登場する不要語を発話している音声区間の特徴値に基づいて閾値を設定することで、個々の音声に適した個別の閾値を設定し、重要度を評価することを可能とする。

まず、不要語について説明する。一般に、話し言葉には、書き言葉には登場しない単語が登場する。例えば、発話者の言いよどみの際に発声される「いや」、「あの」、「えー」、や「えーと」などの単語を含む間投詞（感動詞）は、書き言葉では一般には登場しない単語であるが、話し言葉には数多く登場する。また、これらの単語は話の内容とは無関係であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話される際に発話者により強調して発話されにくい傾向がある。この様な発話される際に発話者により強調して発話されにくい傾向のある単語を、以降の説明では不要語と呼ぶ。不要語は、発話する際に発話者により強調して発話されにくい傾向のある単語であれば、上述の間投詞に分類される単語の他にも、例えば、「だから」などの接続詞に分類される単語等を含んでいてもよい。

以下で例示するいくつかの実施形態では、これらの発話する際に発話者により強調されにくい傾向がある不要語を発話している音声区間の音声から特徴値を取得し、その特徴値に基づいて閾値を算出する。そして、得られた閾値を用いて、音声中の音声区間の重要度の評価を行う。ここで、重要度の評価に用いる閾値は、個々の音声に基づいて動的に算出されるため、複数の音声に対して特定の閾値を用いて重要度を算出する場合と比較して、高い確度で重要度を評価することができる。

図１は、いくつかの実施形態に係る情報処理装置１の機能ブロック構成を例示する図である。情報処理装置１は、例えば、制御部１００及び記憶部１１０を含んでいる。制御部１００は、例えば、音声認識部１１１、特徴値算出部１１２、不要語検出部１１３、不要語音声切出部１１４、閾値設定部１１５、音声区間重要度算出部１１６、及び単語重要度算出部１１７などの機能部１０１を含んでいる。情報処理装置１の記憶部１１０は、例えば、プログラム１２０、並びに後述する辞書情報３００、及び不要語辞書情報４００を記憶している。情報処理装置１の制御部１００は、プログラム１２０を読み出して実行することで例えば音声認識部１１１、特徴値算出部１１２、不要語検出部１１３、及び不要語音声切出部１１４などの機能部１０１として機能する。また、情報処理装置１の制御部１００は、プログラム１２０を読み出して実行することで例えば、閾値設定部１１５、音声区間重要度算出部１１６、及び単語重要度算出部１１７などの機能部１０１として機能する。これらの各機能部１０１の詳細及び記憶部１１０に格納されている情報１３０の詳細については後述する。

図２は、図１の機能部１０１の各部によって実行される重要度算出の流れを例示する図である。例えば、マイクなどの音声入力装置から、或いは記憶部１１０に格納されている音声データから制御部１００へと音声信号が入力されると、音声認識部１１１は、入力されている音声信号に対して音声認識を行い、発話されている文字列を認識する処理を実行する。続いて、音声認識部１１１は、認識した文字列と、例えば記憶部１１０に記憶されている辞書情報３００に登録されている単語とのマッチングを行い、音声中で発話されている単語を検出する。音声認識部１１１は、単語を検出した場合、検出した単語を不要語検出部１１３及び単語重要度算出部１１７に随時出力する。特徴値算出部１１２は、制御部１００に入力されている音声信号に対して、所定の音声区間毎に例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値を算出する処理を実行し、得られた特徴値を音声区間重要度算出部１１６に出力する。

不要語検出部１１３は、例えば、音声認識部１１１から単語が入力されると、入力された単語が、発話する際に発話者により強調されにくい傾向のある不要語であるか否かを判定する。そして、不要語検出部１１３は、判定結果である不要語検出情報を不要語音声切出部１１４へと出力する。なお、不要語か否かの判定は、例えば、音声認識部１１１から入力された単語と一致する単語が、記憶部１１０に格納されている不要語辞書情報４００に登録されているか否かにより判定されてよい。

不要語音声切出部１１４は、例えば、制御部１００に入力されている音声信号を記憶部１１０にバッファリングする。そして、不要語音声切出部１１４は、不要語検出部１１３から不要語であることを示す不要語検出情報が入力された際に、その不要語が発話されている音声区間の音声データを、バッファリングした音声データから切り出す。続いて、不要語音声切出部１１４は、切り出した音声データを閾値設定部１１５へと出力する。

閾値設定部１１５は、例えば、不要語音声切出部１１４から入力された、不要語が発話されている音声区間の音声の特徴値を算出する。そして、閾値設定部１１５は、例えば、算出された不要語が発話されている音声区間の音声の特徴値を基に、重要度の評価に用いる閾値を算出し、音声区間重要度算出部１１６へと出力する。音声区間重要度算出部１１６は、閾値設定部１１５から得られた閾値と、特徴値算出部１１２で算出された所定の音声区間に対する特徴値とを用いて、その所定の音声区間の重要度を算出し、得られた所定の音声区間の重要度を単語重要度算出部１１７に出力する。単語重要度算出部１１７は、例えば、音声区間重要度算出部１１６で算出された所定の音声区間毎の重要度を用いて、音声認識部１１１で検出された単語の重要度を算出し、単語を、その単語の重要度とともに出力する。音声区間重要度算出部１１６は、例えば、重要度が付加された単語を記憶部１１０に出力し、記憶する。

以上のようにして、いくつかの実施形態においては不要語が発話されている音声区間の音声に対して算出された特徴値に基づいて閾値を設定し、音声の重要度を評価する。従って、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことができる。以下、各機能部による処理の詳細を説明する。

図３は、辞書情報３００を例示する図である。図３の例では辞書情報３００には、単語情報３０１が登録されている。単語情報３０１は、例えば、単語と、その読み（読み仮名）とを含み、これらの情報は単語情報３０１により対応付けられている。音声認識部１１１は、例えば、音声から音声認識された文字列と、辞書情報３００に登録されている単語情報３０１の読みとが一致するか否かを判定し、一致する単語を特定することで、音声中で発話されている単語を検出してもよい。また、音声認識部１１１は、音声認識された文字列中の複数の単語の相互関係から、音声中の単語の検出精度を向上させる処理を実行してもよい。或いは、既知の音声認識技術で用いられる音声中の単語を検出する技術を、いくつかの実施形態における音声からの単語の検出に利用してもよい。なお、辞書情報３００には、後述する不要語辞書情報４００に登録されている不要語も登録されている。

図４は、不要語辞書情報４００を例示する図である。図４の例では不要語辞書情報４００には、不要語情報４０１が登録されている。不要語情報４０１は、例えば、発話される際に発話者により強調されにくい傾向がある単語である不要語を含む。不要語は、例えば、接続詞及び間投詞に分類される単語などを含んでいてよい。不要語検出部１１３は、例えば、音声認識部１１１から入力される単語と、記憶部１１０に記憶されている不要語辞書情報４００の不要語情報４０１に含まれる不要語とが一致するか否かを判定し、一致する場合に、不要語を検出したと判定してもよい。

図５は、不要語検出部１１３によって実行される不要語検出処理の動作フローを例示する図である。図５の不要語検出処理の動作フローは、例えば、不要語検出部１１３が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、音声認識部１１１で検出された単語が不要語検出部１１３へと入力される度に、図５の不要語検出処理は開始する。

ステップＳ５０１において、不要語検出部１１３は、音声認識部１１１から入力された単語を読み込む。ステップＳ５０２において不要語検出部１１３は、ステップＳ５０１で読み込んだ単語が、不要語辞書情報４００に存在するか否かを判定する。単語が不要語辞書情報４００に存在する場合（ステップＳ５０２がＹＥＳ）、不要語検出部１１３は不要語を検出したことを示す不要語検出情報を不要語音声切出部１１４に出力し、本動作フローは終了する。一方、読み込んだ単語が不要語辞書情報４００に存在していない場合（ステップＳ５０２がＮＯ）、不要語検出部１１３は不要語を検出していないことを示す不要語検出情報を不要語音声切出部１１４に出力し、本動作フローは終了する。一実施形態においては、不要語検出部１１３は、不要語を検出した場合には不要語検出情報として「１」を、一方、検出していない場合には不要語検出情報として「０」を不要語音声切出部１１４に出力するように構成してもよい。

図６は、不要語音声切出部１１４によって実行される不要語音声切出処理の動作フローを例示する図である。図６の不要語音声切出処理の動作フローは、例えば、不要語音声切出部１１４が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、不要語検出部１１３から出力された不要語検出情報が不要語音声切出部１１４に入力される度に、図６の不要語音声切出処理は開始する。なお、一実施形態において、不要語音声切出部１１４は、制御部１００に入力されている音声信号を記憶部１１０にバッファリングする処理も実行する。それにより、記憶部１１０には、制御部１００に現在入力されている音声信号から例えば３秒間分などの所定の期間遡った時点までの音声データがバッファリングされる。

ステップＳ６０１において不要語音声切出部１１４は、不要語検出部１１３から入力された不要語検出情報を読み込む。ステップＳ６０２において不要語音声切出部１１４は、読み込んだ不要語検出情報が、不要語を検出したことを表しているか否かを判定する。一実施形態においては、不要語音声切出部１１４は、不要語検出情報の値が「１」である場合には、不要語を検出したことを表していると判定し、「０」である場合には不要語を検出していないことを表していると判定してもよい。不要語検出情報が不要語を検出していないことを表している場合（ステップＳ６０２がＮＯ）、本動作フローは終了する。一方、不要語検出情報が不要語を検出したことを表している場合（ステップＳ６０２がＹＥＳ）、フローはステップＳ６０３へと進む。ステップＳ６０３において不要語音声切出部１１４は、記憶部１１０にバッファリングしている音声データから、ステップＳ６０１で読み込んだ不要語検出情報において不要語として検出された単語の音声区間を切り出して閾値設定部１１５へと出力する。一実施形態においては、不要語を検出したことを表す不要語検出情報が入力された時刻から所定の期間遡った時刻までの音声区間の音声データを切り出し、閾値設定部１１５へと出力する。不要語音声切出部１１４が、閾値設定部１１５へと切り出した音声データを出力すると、本動作フローは終了する。

なお、上記の不要語が発話されている音声区間である可能性の高い所定の期間の長さは、例えば、記憶部１１０にバッファリングされている音声データの時間長を超えない範囲に設定される。一実施形態においては、この所定の期間の長さは、ステップＳ６０１で検出された不要語の文字列の長さ又は音節数と、一般的な話速の平均速度などに基づいて不要語が発話されている音声区間の長さを見積もることで設定されてよい。

図７は、以上の図３から図６を参照して述べた処理による不要語が発話されている音声区間の音声データの切り出しを例示する図である。図７において、ｔは、例えば、音声信号の入力が開始してからの経過時間である。音声認識結果７０１は、入力される音声信号に対して音声認識部１１１が音声認識を実行した結果を示しており、図示されるように入力された音声から単語が時系列に沿って順次検出されている。なお、図７の例では、「いや」の単語が検出された状況を示している。不要語検出情報７０２は、ステップＳ５０３又はステップＳ５０４にて不要語検出部１１３から出力される不要語検出情報であり、音声中で認識された単語に対する不要語検出情報が時系列に沿って示されている。なお、図７の例では、不要語検出情報の値：１は検出された単語が不要語であることを表しており、０は不要語ではないことを表している。例えば、図７では、音声認識された「いや」に対して「１」が判定されており、これは、「いや」が不要語であることを表している。音声信号７０３は、不要語音声切出部１１４によって例えば記憶部１１０にバッファリングされている音声信号を表している。

図７に示す例では、音声信号は現在単語「いや」が発話し終わったタイミングに位置している。この単語「いや」が発話し終わったタイミングで、音声認識部１１１は、音声認識結果７０１として単語「いや」を検出しており、その認識結果に対して、不要語検出部１１３が単語「いや」が不要語であることを示す「１」を出力している。この場合に、不要語音声切出部１１４は、不要語である「いや」が発話されている音声区間の音声データの切り出しを行うが、現在、音声信号は不要語「いや」を発話し終わっているタイミングである。そのため、「いや」が発話されている音声区間の音声データを切り出すためには、音声データを遡って切り出しを行う必要がある。そこで、一実施形態においては、現在入力されている音声信号の位置から例えば３秒間分などの所定の期間遡った時点までの音声データを記憶部１１０などにバッファリングしている。そして、不要語音声切出部１１４は不要語が検出されたタイミングで、バッファリングしておいた音声データから所定期間遡って音声データを切り出す。図７では、例えば、この様にして不要語「いや」の音声区間の音声データを切り出している。

図８は、閾値設定部１１５によって実行される閾値設定処理の動作フローを例示する図である。図８の閾値設定処理の動作フローは、例えば、閾値設定部１１５が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に、閾値設定処理は開始する。なお、図８では、特徴値として、音声の強度（パワー）を用いる場合を例示する。

ステップＳ８０１において閾値設定部１１５は、不要語音声切出部１１４から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップＳ８０２で閾値設定部１１５は、読み込んだ音声データに含まれる音声信号の強度を算出する。音声信号の強度は、例えば以下の式１で得ることができる。

ここで、Ｐは求めたい音声の強度である。ｘは音声信号をサンプリングしたときの各サンプルの値である。Ｎは、強度を算出する音声区間において行ったサンプリング数である。例えば、８ｋＨｚでサンプリングを行い、強度を算出する音声区間が２０ｍｓｅｃであるとする。この場合、８０００サンプル／ｓｅｃ×０．２ｓｅｃ＝１６０サンプル（Ｎ＝１６０）である。なお、ステップＳ８０２で強度を算出する音声区間は、例えば、不要語音声切出部１１４が切り出す音声データの長さであってもよい。

続いて、ステップＳ８０３において閾値設定部１１５は、平均強度を算出する。上述のように図８の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ８０２にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップＳ８０３では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ８０２で算出される音声強度の平均値を、平均強度として算出する。

平均強度は、例えば、以下の式２で算出されてよい。
Pua(t)=αPu(t)+(1-α)Pua(t-1) ・・・式２

ここで、tは、例えば、音声信号の入力が開始してから現在までに図８の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。Pua(t)は、求めたい平均強度である。Pu(t)は、ステップＳ８０２で算出した強度である。Pua(t-1)は、前回の図８の動作フローの実行時（即ち、ｔ−１回目の実行時）に算出された平均強度の値である。なお、例えば、音声信号の入力が開始した以降に図８の動作フローが初めて実行される場合には、ステップＳ８０３では上記式２の計算を行わず、ステップＳ８０２で算出された強度をそのまま平均強度として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図８の動作フローが初めて実行される場合には、予め設定した所定値をPua(t-1)として用いてもよい。αは、前回の図８の動作フローの実行で算出された平均強度に、今回の図８の動作フローの実行でステップＳ８０２において算出された強度をどれくらい寄与させるかを表す寄与係数であり、例えば０．０１などであってよい。

ステップＳ８０４において閾値設定部１１５は、標準偏差を算出する。上述のように図８の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ８０２にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップＳ８０４では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ８０２で算出される音声強度の標準偏差を算出する。

閾値設定部１１５は、まず、切り出した音声データが閾値設定部１１５へと入力される度にステップＳ８０２で算出される音声強度の分散値を算出する。分散値は、例えば、以下の式３で算出されてよい。
σ²(t)=β(Pu(t)-Pua(t))²+(1-β)σ²(t-1) ・・・式３

ここで、tは、例えば、音声信号の入力が開始してから現在までに図８の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。σ²(t)は、求めたい分散値である。Pu(t)は、ステップＳ８０２で算出した強度である。Pua(t)は、ステップＳ８０３で算出した平均強度である。σ²(t-1)は、前回の図８の動作フローの実行時にステップＳ８０４で算出された分散値である。βは、前回の図８の動作フローの実行で算出された分散値に、今回の図８の動作フローの実行でステップＳ８０２において算出された強度の平均強度からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば０．０１などであってよい。そして、閾値設定部１１５は、得られた分散値の正の平方根をとり、音声強度の標準偏差：σを算出する。

ステップＳ８０５において、閾値設定部１１５は、ステップＳ８０３で算出した平均強度：Pua(t)と、ステップＳ８０４で算出した標準偏差：σとを用いて閾値を設定し、設定した閾値を音声区間重要度算出部１１６に出力し、本動作フローは終了する。なお、ステップＳ８０５において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第１の閾値：Pua(t)＋σ、及び第２の閾値：Pua(t)＋１．５σの２つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップＳ８０５で設定する閾値の数は１つであってもよいし、２つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Pua(t)＋０．５σ、Pua(t)＋０．８σ、Pua(t)＋１．３σ、Pua(t)＋２．０σというように、標準偏差：σに所定の正の倍率を掛けた値を、平均強度に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均強度に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、音声強度が強くなる傾向があるためである。

図９は、特徴値算出部１１２によって実行される特徴値算出処理の動作フローを例示する図である。図９の特徴値算出処理の動作フローは、例えば、特徴値算出部１１２が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部１１０に格納されている音声データからの制御部１００への音声信号の入力が開始すると、図９の動作フローは開始する。なお、図９の例では、特徴値として、音声の強度（パワー）を用いる場合を例示する。

ステップＳ９０１において特徴値算出部１１２は、入力されている音声信号を所定期間にわたって読み込む。ステップＳ９０２において特徴値算出部１１２は、読み込んだ所定期間の音声信号の強度：Ｐを算出する。音声の強度：Ｐは、例えば、上述の式１により算出することができる。

ステップＳ９０３で特徴値算出部１１２は、ステップＳ９０２で算出した強度を、音声区間重要度算出部１１６に出力し、フローはステップＳ９０１へと戻る。以上のようにして、特徴値算出部１１２は、入力される音声信号の所定期間毎の音声強度を算出し、音声区間重要度算出部１１６に出力する。

図１０は、音声区間重要度算出部１１６によって実行される重要度算出処理の動作フローを例示する図である。図１０の重要度算出処理の動作フローは、例えば、音声区間重要度算出部１１６が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、例えば、閾値設定部１１５から閾値が音声区間重要度算出部１１６に入力されている状態で、特徴値算出部１１２から特徴値が入力されると、図１０の動作フローは開始する。

ステップＳ１００１において音声区間重要度算出部１１６は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、特徴値算出部１１２から入力される所定区間の音声信号の強度：Ｐである。また、閾値は、例えば、閾値設定部１１５で設定した閾値であり、ここでは、閾値として第１の閾値：Pua(t)＋σ、及び第２の閾値：Pua(t)＋１．５σの２つの閾値が入力されているものとする。

ステップＳ１００２で音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第１の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部１１６は、P ≧ Pua + σを満たすか否かを判定する。所定区間の音声信号の強度：Ｐが不要語が検出された音声区間の音声信号の平均強度に標準偏差：σを加算した第１の閾値よりも小さい場合（ステップＳ１００２がＮＯ）、フローはステップＳ１００３へと進む。ステップＳ１００３において音声区間重要度算出部１１６は、重要度の評価値：１を出力して本動作フローは終了する。一方、所定区間の音声信号の強度：Ｐが不要語が検出された音声区間の音声信号の平均強度に標準偏差：σを加算した第１の閾値以上である場合（ステップＳ１００２がＹＥＳ）、フローはステップＳ１００４へと進む。

ステップＳ１００４において音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第２の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部１１６は、P ≧ Pua + 1.5σを満たすか否かを判定する。所定区間の音声信号の強度：Ｐが不要語が検出された音声区間の音声信号の平均強度に標準偏差の１．５倍値：１．５σを加算した第２の閾値よりも小さい場合（ステップＳ１００４がＮＯ）、フローはステップＳ１００５へと進む。ステップＳ１００５において音声区間重要度算出部１１６は、重要度の評価値：２を出力して本動作フローは終了する。一方、所定区間の音声信号の強度：Ｐが不要語が検出された音声区間の音声信号の平均強度に標準偏差の１．５倍値：１．５σを加算した第２の閾値以上である場合（ステップＳ１００４がＹＥＳ）、フローはステップＳ１００６へと進む。ステップＳ１００６において音声区間重要度算出部１１６は、重要度の評価値：３を出力して本動作フローは終了する。

以上の処理で出力される、音声信号の強度に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。強度に基づく所定区間の音声信号に対する重要度の評価値について、図１１を参照し更に説明する。

図１１は、特徴値が音声信号の強度である場合における重要度の評価について説明する図である。図１１には、不要語の音声区間における音声強度の分布が示されている。上述のように、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きな声を出す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の強度は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の強度と比較して小さい値をとる傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均強度は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の強度の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度強度に強弱をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の強度の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい音声強度に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の音声強度が、基準となる不要語の音声信号の平均強度に標準偏差を加算した値以上の音声強度である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きな声で発話していることになる。従って、重要である可能性が高いと判定できる。

例えば、以上のような観点から、図８から図１１に示す例では、発話者が、平均強度に標準偏差を加算した値よりも大きな強度で話している場合に、音声区間重要度算出部１１６が評価値：１よりも大きい評価値：２を出力するように構成している。また、更に、発話者が、平均強度に標準偏差の１．５倍を加算した値よりも大きな強度で話している場合には、音声区間重要度算出部１１６が評価値：２よりも大きい評価値：３を出力するように構成している。また、評価値は、本実施形態においては値が大きいほど重要である可能性が高いことを示すように構成している。

以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均強度と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均強度及び標準偏差は、発話者の音声信号に基づいて算出されている。従って、例えば、発話を記録した２つの音声データがある場合に、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。従って、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。

続いて、図１２から図１４を参照して、特徴値として音声の抑揚を用いる場合の例を述べる。なお、特徴値として音声の抑揚を用いる場合、一実施形態においては、上記図８の閾値設定処理の動作フローの代わりに、以下で述べる図１２の閾値設定処理を実行する。また、図９の特徴値算出処理の動作フローの代わりに、以下で述べる図１３の特徴値算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。

図１２は、閾値設定部１１５によって実行される閾値設定処理を例示する図である。図１２の閾値設定処理の動作フローは、例えば、閾値設定部１１５が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に、図１２の閾値設定処理は開始する。

ステップＳ１２０１において閾値設定部１１５は、不要語音声切出部１１４から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップＳ１２０２で閾値設定部１１５は、読み込んだ音声データに含まれる音声信号の抑揚を算出する。音声信号の抑揚は、例えば読み込まれた音声信号の音声区間において、最も高い音と最も低い音との周波数の差分を算出することで得ることができる。

続いて、ステップＳ１２０３において閾値設定部１１５は、平均抑揚を算出する。上述のように図１２の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ１２０２にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップＳ１２０３では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１２０２で算出される音声の抑揚の平均値を、平均抑揚として算出する。

平均抑揚は、例えば、以下の式４で算出されてよい。
Iua(t)=αIu(t)+(1-α)Iua(t-1) ・・・式４
ここで、tは、例えば、音声信号の入力が開始してから現在までに図１２の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。Iua(t)は、求めたい平均抑揚である。Iu(t)は、ステップＳ１２０２で算出した抑揚である。Iua(t-1)は、前回の図１２の動作フローの実行時（即ち、ｔ−１回目の実行時）に算出された平均抑揚の値である。なお、例えば、音声信号の入力が開始した以降に図１２の動作フローが初めて実行される場合には、ステップＳ１２０３では上記式４の計算を行わず、ステップＳ１２０２で算出された抑揚をそのまま平均抑揚として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図１２の動作フローが初めて実行される場合には、予め設定した所定値をIua(t-1)として用いてもよい。αは、前回の図１２の動作フローの実行で算出された平均抑揚に、今回の図１２の動作フローの実行でステップＳ１２０２において算出された抑揚をどれくらい寄与させるかを表す寄与係数であり、例えば０．０１などであってよい。

ステップＳ１２０４において閾値設定部１１５は、標準偏差を算出する。上述のように図１２の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ１２０２にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップＳ１２０４では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１２０２で算出される抑揚の標準偏差を算出する。

閾値設定部１１５は、まず、切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１２０２で算出される抑揚の分散値を算出する。分散値は、例えば、以下の式５で算出されてよい。
σ²(t)=β(Iu(t)-Iua(t))²+(1-β)σ²(t-1) ・・・式５

ここで、tは、例えば、音声信号の入力が開始してから現在までに図１２の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。σ²(t)は、求めたい抑揚の分散値である。Iu(t)は、ステップＳ１２０２で算出した抑揚である。Iua(t)は、ステップＳ１２０３で算出した平均抑揚である。σ²(t-1)は、前回の図１２の動作フローの実行時（即ち、ｔ−１回目の実行時）にステップＳ１２０４で算出された分散値である。βは、前回の図１２の動作フローの実行で算出された分散値に、今回の図１２の動作フローの実行でステップＳ１２０２において算出された抑揚の平均抑揚からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば０．０１などであってよい。そして、閾値設定部１１５は、得られた分散値の正の平方根をとり、抑揚の標準偏差：σを算出する。

ステップＳ１２０５において、閾値設定部１１５は、ステップＳ１２０３で算出した平均抑揚：Iua(t)と、ステップＳ１２０４で算出した標準偏差：σとを用いて閾値を設定し、その閾値を音声区間重要度算出部１１６へと出力し、本動作フローは終了する。なお、ステップＳ１２０５において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第１の閾値：Iua(t)＋σ、及び第２の閾値：Iua(t)＋１．５σの２つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップＳ１２０３で設定する閾値の数は１つであってもよいし、２つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Iua(t)＋０．５σ、Iua(t)＋０．８σ、Iua(t)＋１．３σ、Iua(t)＋２．０σというように、標準偏差：σに所定の正の倍率を掛けた値を、平均抑揚に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均抑揚に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、抑揚が大きくなる傾向があるためである。

図１３は、特徴値として音声の抑揚を用いる場合に特徴値算出部１１２によって実行される特徴値算出処理の動作フローを例示する図である。図１３の特徴値算出処理の動作フローは、例えば、特徴値算出部１１２が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部１１０に格納されている音声データからの制御部１００への音声信号の入力が開始すると、図１３の動作フローは開始する。

ステップＳ１３０１において特徴値算出部１１２は、入力されている音声信号を所定期間にわたって読み込む。ステップＳ１３０２において特徴値算出部１１２は、読み込んだ所定期間の音声信号の抑揚：Iを算出する。抑揚：Iは、例えば、読み込んだ所定期間の音声信号において、最も高い音と最も低い音との周波数の差分を算出することで得られてもよい。

ステップＳ１３０３で特徴値算出部１１２は、ステップＳ１３０２で算出した抑揚：Iを、音声区間重要度算出部１１６に出力し、フローはステップＳ１３０１へと戻る。以上のようにして、特徴値算出部１１２は、入力される音声信号の所定期間毎の抑揚を算出し、音声区間重要度算出部１１６に出力する。

また、特徴値として音声の抑揚を用いる場合、音声区間重要度算出部１１６は、図１０の動作フローにおいて、図１２の動作フローで設定した閾値と、図１３の動作フローで算出した抑揚：Iとを用いて重要度の算出を行う。

まず、ステップＳ１００１において音声区間重要度算出部１１６は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図１３の動作フローで算出した所定区間の音声信号の抑揚：Iである。また、閾値は、例えば、図１２の動作フローにおいて閾値設定部１１５が設定した閾値であり、ここでは、閾値として第１の閾値：Iua(t)＋σ、及び第２の閾値：Iua(t)＋１．５σの２つが入力されているものとする。

ステップＳ１００２で音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第１の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部１１６は、I ≧ Iua + σを満たすか否かを判定する。所定区間の音声信号の抑揚：Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差：σを加算した第１の閾値よりも小さい場合（ステップＳ１００２がＮＯ）、フローはステップＳ１００３へと進む。ステップＳ１００３において音声区間重要度算出部１１６は、重要度の評価値：１を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚：Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差：σを加算した第１の閾値以上である場合（ステップＳ１００２がＹＥＳ）、フローはステップＳ１００４へと進む。

ステップＳ１００４において音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第２の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部１１６は、I ≧ Iua + 1.5σを満たすか否かを判定する。所定区間の音声信号の抑揚：Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の１．５倍値：１．５σを加算した第２の閾値よりも小さい場合（ステップＳ１００４がＮＯ）、フローはステップＳ１００５へと進む。ステップＳ１００５において音声区間重要度算出部１１６は、重要度の評価値：２を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚：Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の１．５倍値：１．５σを加算した第２の閾値以上である場合（ステップＳ１００４がＹＥＳ）、フローはステップＳ１００６へと進む。ステップＳ１００６において音声区間重要度算出部１１６は、重要度の評価値：３を出力して本動作フローは終了する。

以上の処理で出力される、音声信号の抑揚に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。抑揚に基づく、所定区間の音声信号に対する重要度の評価値について、図１４を参照し更に説明する。

図１４は、特徴値が音声信号の抑揚である場合における重要度の評価について説明する図である。図１４には、不要語の音声区間における抑揚の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きく抑揚をつけて話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の抑揚は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の抑揚と比較して小さい傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均抑揚は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の抑揚の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度抑揚をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の抑揚の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい抑揚に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の抑揚が、基準となる不要語の音声信号の平均抑揚に標準偏差を加算した値以上の抑揚である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きく抑揚をつけて発話していることになる。従って、重要である可能性が高いと判定できる。

例えば、以上のような観点から、図１２から図１４に示す例では、発話者が、平均抑揚に標準偏差を加算した値よりも大きな抑揚をつけて話している場合に、音声区間重要度算出部１１６が評価値：１よりも大きい評価値：２を出力するように構成している。また、更に、発話者が、平均抑揚に標準偏差の１．５倍を加算した値よりも大きな抑揚をつけて話している場合には、音声区間重要度算出部１１６が評価値：２よりも大きい評価値：３を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。

以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均抑揚と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均抑揚及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した２つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。

続いて、図１５から図１９を参照して、特徴値として音声の話速を用いる場合の例を述べる。なお、特徴値として音声の話速を用いる場合、一実施形態においては、上記図８の閾値設定処理の動作フローの代わりに、以下で述べる図１５の閾値設定処理を実行する。また、図９の特徴値算出処理の動作フローの代わりに、以下で述べる図１６の特徴値算出処理の動作フローを実行する。更に、図１０の重要度算出処理の動作フローの代わりに、図１７の重要度算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。

図１５は、実施形態に係る閾値設定処理を例示する図である。図１５の閾値設定処理の動作フローは、例えば、閾値設定部１１５が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に、閾値設定処理は開始する。

ステップＳ１５０１において閾値設定部１１５は、不要語音声切出部１１４から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップＳ１５０２で閾値設定部１１５は、読み込んだ音声データに含まれる音声信号の話速を算出する。音声信号の話速は、例えば読み込まれた音声信号の音声区間において１秒間当りのモーラ数（mora/sec）を算出することで得られてよい。ここで、モーラとは、例えば、韻律学または音韻論上の単位であり、1短音節に相当するとされる音の長さである。

続いて、ステップＳ１５０３において閾値設定部１１５は、平均話速を算出する。上述のように図１５の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ１５０２にて不要語を発話している音声区間の音声信号の話速が算出される。ステップＳ１５０３では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１５０２で算出される音声の話速の平均値を、平均話速として算出する。

平均話速は、例えば、以下の式６で算出されてよい。
Mua(t)=αMu(t)+(1-α)Mua(t-1) ・・・式６
ここで、tは、例えば、音声信号の入力が開始してから現在までに図１５の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。Mua(t)は、求めたい平均話速である。Mu(t)は、ステップＳ１５０２で算出した話速である。Mua(t-1)は、前回の図１５の動作フローの実行時（即ち、ｔ−１回目の実行時）に算出された平均話速の値である。なお、例えば、音声信号の入力が開始した以降に図１５の動作フローが初めて実行される場合には、ステップＳ１５０３では上記式６の計算を行わず、ステップＳ１５０２で算出された話速をそのまま平均話速として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図１５の動作フローが初めて実行される場合には、予め設定した所定値をMua(t-1)として用いてもよい。αは、前回の図１５の動作フローの実行で算出された平均話速に、今回の図１５の動作フローの実行でステップＳ１５０２において算出された話速をどれくらい寄与させるかを表す寄与係数であり、例えば０．０１などであってよい。

ステップＳ１５０４において閾値設定部１１５は、標準偏差を算出する。上述のように図１５の動作フローは、不要語音声切出部１１４が切り出した音声データが閾値設定部１１５へと入力される度に実行され、その都度ステップＳ１５０２にて不要語を発話している音声区間の音声信号の話速が算出される。ステップＳ１５０４では、この切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１５０２で算出される話速の標準偏差を算出する。

閾値設定部１１５は、まず、切り出した音声データが閾値設定部１１５へと入力される度にステップＳ１５０２で算出される話速の分散値を算出する。分散値は、例えば、以下の式７で算出されてよい。
σ²(t)=β(Mu(t)-Mua(t))²+(1-β)σ²(t-1) ・・・式７

ここで、tは、例えば、音声信号の入力が開始してから現在までに図１５の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部１１３によって検出された回数である。σ²(t)は、求めたい話速の分散値である。Mu(t)は、ステップＳ１５０２で算出した話速である。Mua(t)は、ステップＳ１５０３で算出した平均話速である。σ²(t-1)は、前回の図１５の動作フローの実行時（即ち、ｔ−１回目の実行時）にステップＳ１５０４で算出された分散値である。βは、前回の図１５の動作フローの実行で算出された分散値に、今回の図１５の動作フローの実行でステップＳ１５０２において算出された話速の平均話速からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば０．０１などであってよい。そして、閾値設定部１１５は、得られた分散値の正の平方根をとり、話速の標準偏差：σを算出する。

ステップＳ１５０５において、閾値設定部１１５は、ステップＳ１５０３で算出した平均話速：Mua(t)と、ステップＳ１５０４で算出した標準偏差：σと用いて閾値を設定し、設定した閾値を音声区間重要度算出部１１６に出力し、本動作フローは終了する。なお、ステップＳ１５０５において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第１の閾値：Mua(t) − σ、及び第２の閾値：Mua(t) −１．５σの２つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップＳ１５０３で設定する閾値の数は１つであってもよいし、２つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Mua(t) −０．５σ、Mua(t) −０．８σ、Mua(t) −１．３σ、Mua(t) −２．０σというように、標準偏差：σに所定の正の倍率を掛けた値を、平均話速から減算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均話速から減算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、話速が遅くなる傾向があるためである。

図１６は、特徴値として音声の話速を用いる場合に特徴値算出部１１２によって実行される特徴値算出処理の動作フローを例示する図である。図１６の特徴値算出処理の動作フローは、例えば、特徴値算出部１１２が、記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部１１０に格納されている音声データからの制御部１００への音声信号の入力が開始すると、図１６の動作フローは開始する。

ステップＳ１６０１において特徴値算出部１１２は、入力されている音声信号を所定期間にわたって読み込む。ステップＳ１６０２において特徴値算出部１１２は、読み込んだ所定期間の音声信号の話速：Ｍを算出する。話速：Ｍは、例えば、読み込んだ所定期間の音声信号において１秒間当りのモーラ数（mora/sec）を算出することで得られてもよい。

ステップＳ１６０３で特徴値算出部１１２は、ステップＳ１６０２で算出した話速：Mを、音声区間重要度算出部１１６に出力し、フローはステップＳ１６０１へと戻る。以上のようにして、特徴値算出部１１２は、入力される音声信号の所定期間毎の話速を算出し、音声区間重要度算出部１１６に出力する。

また、特徴値として音声の話速を用いる場合、音声区間重要度算出部１１６は、図１７の動作フローにおいて、図１５の動作フローで設定した閾値と、図１６の動作フローで算出した話速：Mとを用いて重要度の算出を行う。

まず、ステップＳ１７０１において音声区間重要度算出部１１６は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図１６の動作フローで算出した所定区間の音声信号の話速：Mである。また、閾値は、例えば、図１５の動作フローにおいて閾値設定部１１５が設定した閾値であり、ここでは、閾値として第１の閾値：Mua(t)−σ、及び第２の閾値：Mua(t)−１．５σの２つが入力されているものとする。

ステップＳ１７０２で音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第１の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部１１６は、Ｍ ≦ Ｍua - σを満たすか否かを判定する。所定区間の音声信号の話速：Ｍが不要語が検出された音声区間の音声信号の平均話速：Ｍuａから標準偏差：σを減算した第１の閾値よりも大きい場合（ステップＳ１７０２がＮＯ）、フローはステップＳ１７０３へと進む。ステップＳ１７０３において音声区間重要度算出部１１６は、重要度の評価値：１を出力して本動作フローは終了する。一方、所定区間の音声信号の話速：Ｍが不要語が検出された区間の音声信号の平均話速Ｍuａから標準偏差：σを減算した第１の閾値以下である場合（ステップＳ１７０２がＹＥＳ）、フローはステップＳ１７０４へと進む。

ステップＳ１７０４において音声区間重要度算出部１１６は、特徴値算出部１１２から入力される特徴値が、第２の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部１１６は、M ≦ Mua - 1.5σを満たすか否かを判定する。所定区間の音声信号の話速：Ｍが不要語が検出された音声区間の音声信号の平均話速：Ｍuａから標準偏差の１．５倍値：１．５σを減算した第２の閾値よりも大きい場合（ステップＳ１７０４がＮＯ）、フローはステップＳ１７０５へと進む。ステップＳ１７０５において音声区間重要度算出部１１６は、重要度の評価値：２を出力して本動作フローは終了する。一方、所定区間の音声信号の話速：Ｍが不要語が検出された区間の音声信号の平均話速：Ｍuａから標準偏差の１．５倍値：１．５σを減算した第２の閾値以下である場合（ステップＳ１７０４がＹＥＳ）、フローはステップＳ１７０６へと進む。ステップＳ１７０６において音声区間重要度算出部１１６は、重要度の評価値：３を出力して本動作フローは終了する。

以上の処理で出力される、音声信号の話速に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。話速に基づく、所定区間の音声信号に対する重要度の評価値について、図１８を参照し更に説明する。

図１８は、特徴値が音声信号の話速である場合における重要度の評価について説明する図である。図１８には、不要語の音声区間における話速の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりもゆっくりと話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の話速は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の話速と比較して速い傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均話速は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の話速の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度話速に変化をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の話速の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて遅い話速に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の話速が、基準となる不要語の音声信号の平均話速から標準偏差を減算した値以下の話速である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著にゆっくりと発話していることになる。従って、重要である可能性が高いと判定できる。

例えば、以上のような観点から、図１５から図１８に示す例では、発話者が、平均話速から標準偏差を減算した値よりも遅い話速で話している場合に、音声区間重要度算出部１１６が評価値：１よりも大きい評価値：２を出力するように構成している。また、更に、発話者が、平均話速から標準偏差の１．５倍の値を減算した値よりも遅い話速で話している場合には、音声区間重要度算出部１１６が評価値：２よりも大きい評価値：３を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。

以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均話速と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均話速及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した２つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。

以上において特徴値として音声の強度、抑揚、及び話速を用いた場合のそれぞれについて、入力される音声信号の重要度を所定区間毎に算出する処理について説明した。これらの得られた所定区間毎の音声信号の重要度は、例えば、音声データに含まれる単語の重要度を評価するために用いることができる。図１９は、実施形態に係る単語の重要度の評価処理を例示する図である。図１９の動作フローは、例えば、制御部１００が記憶部１１０に格納されているプログラム１２０を読み出して実行することで実施される。一実施形態においては、音声認識部１１１が入力される音声信号から単語を検出すると、図１９の動作フローは開始する。

ステップＳ１９０１において単語重要度算出部１１７は、音声認識部１１１で検出された単語が発話されている音声区間を特定する。ステップＳ１９０２において単語重要度算出部１１７は、特定した音声区間の重要度を算出する。上述のように音声区間重要度算出部１１６は、入力される音声信号の所定期間毎の重要度を算出し、単語重要度算出部１１７に出力する。ここで、重要度を算出する音声区間である所定区間を十分に短く設定することで、ステップＳ１９０１で特定した単語に対応する音声区間内に、重要度の算出が行われた所定区間が少なくとも１つは含まれるように構成することができる。そこで、一実施形態においては、ステップＳ１９０２において単語重要度算出部１１７は、単語に対応する音声区間内に存在する所定区間に対して算出された重要度を足し合わせ、重要度の合計値を算出する。続いて、単語重要度算出部１１７は、足し合わせに用いた重要度の個数で、算出した重要度の合計値を除算することで単語に対する重要度を算出してもよい。例えば以上の様にして、単語重要度算出部１１７は音声認識部１１１で検出された単語に対する重要度を算出してよい。ステップＳ１９０３において単語重要度算出部１１７は、音声認識部１１１から入力された単語に、ステップＳ１９０２で算出した重要度を付加して、例えば記憶部１１０に出力する。

以上でのべた図１９の動作フローにより、音声認識部１１１で単語が認識されるたびに、その単語に対する重要度が算出され、重要度が付加された単語を記憶部１１０に記憶することができる。そのため、例えば、記憶部１１０に記憶された重要度が付加された単語を、重要度の高い順に並べ替え、情報処理装置１の表示装置の表示画面を介してユーザに提示する等の処理が可能になる。そのため、ユーザは重要度の高い単語を用いて、予定表の登録や、メモの作成等を簡便に行うことができ、情報処理装置１のユーザビリティを向上させることができる。

以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記したものに限定されるものではない。例えば、不要語が発話されている音声区間の音声の平均強度の算出、及び強度の標準偏差の算出に、上記式２及び式３を用いる例を説明した。しかしながら、平均強度の算出、及び強度の標準偏差の算出は、これに限定されるものではなく、例えば平均強度は、ステップＳ８０２で算出した強度を相加平均することにより算出されてもよい。抑揚及び話速を特徴値として用いる場合の平均抑揚、平均話速、抑揚の分散値と標準偏差、及び話速の分散値と標準偏差の算出についても、同様に式４〜式７に限定されるものではなく、例えば統計学の分野等で平均値、分散、標準偏差の算出に利用されているその他の算出法で算出されてもよい。

また、上記の説明では、特徴値として、音声の強度、抑揚、及び話速のいずれかを用いて重要度を算出する場合を例示したが、実施形態はこれに限定されるものではなく、音声の強度、抑揚、及び話速による重要度の算出は組み合わせて用いることができる。例えば、音声の強度、抑揚、及び話速のそれぞれで算出された重要度を足し合わせて、所定区間の音声信号の重要度や、単語の重要度を算出してもよい。

図２０は、実施形態に係る情報処理装置１を実現するためのコンピュータ２０００のハードウェア構成を例示する図である。図２０の情報処理装置１を実現するためのハードウェア構成は、例えば、プロセッサ２００１、メモリ２００２、記憶装置２００３、読取装置２００４、通信インタフェース２００６、入出力インタフェース２００７、及び表示装置２０１０を備える。なお、プロセッサ２００１、メモリ２００２、記憶装置２００３、読取装置２００４、通信インタフェース２００６、入出力インタフェース２００７は、例えば、バス２００８を介して互いに接続されている。

プロセッサ２００１は、メモリ２００２を利用して例えば上述の動作フローの手順を記述したプログラムを含むプログラム１２０を実行することにより、上述した各機能部の一部または全部の機能を提供する。例えば、制御部１００は、プロセッサ２００１であり、また、記憶部１１０は、例えばメモリ２００２、記憶装置２００３、及び着脱可能記憶媒体２００５を含んでいる。プロセッサ２００１は、例えば、記憶装置２００３に格納されているプログラム１２０を読み出して実行することで、音声認識部１１１、特徴値算出部１１２、不要語検出部１１３、及び不要語音声切出部１１４として機能する。また、プロセッサ２００１は、例えば、記憶装置２００３に格納されているプログラム１２０を読み出して実行することで、閾値設定部１１５、音声区間重要度算出部１１６、及び単語重要度算出部１１７として機能する。記憶装置２００３には、例えば、辞書情報３００、及び不要語辞書情報４００が格納されている。

メモリ２００２は、例えば半導体メモリであり、ＲＡＭ領域及びＲＯＭ領域を含んで構成される。記憶装置２００３は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、又は外部記憶装置である。

読取装置２００４は、プロセッサ２００１の指示に従って着脱可能記憶媒体２００５にアクセスする。着脱可能記憶媒体２００５は、例えば、半導体デバイス（ＵＳＢメモリ等）、磁気的作用により情報が入出力される媒体（磁気ディスク等）、光学的作用により情報が入出力される媒体（ＣＤ−ＲＯＭ、ＤＶＤ等）などにより実現される。通信インタフェース２００６は、プロセッサ２００１の指示に従ってネットワーク２０２０を介してデータを送受信する。入出力インタフェース２００７は、例えば、入力装置及び出力装置との間のインタフェースに相当する。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、及び音声を入力するマイクなどのデバイスである。出力装置は、例えばスピーカなどの音声出力装置である。また、図２０に示す例では、入出力インタフェース２００７には表示装置２０１０が接続されている。

実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置１に提供される。
（１）記憶装置２００３に予めインストールされている。
（２）着脱可能記憶媒体２００５により提供される。
（３）プログラムサーバなどのサーバ２０３０から提供される。

以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態を成すことができることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。

１情報処理装置
１００制御部
１１０記憶部
１１１音声認識部
１１２特徴値算出部
１１３不要語検出部
１１４不要語音声切出部
１１５閾値設定部
１１６音声区間重要度算出部
１１７単語重要度算出部
２０００コンピュータ
２００１プロセッサ
２００２メモリ
２００３記憶装置
２００４読取装置
２００５着脱可能記憶媒体
２００６通信インタフェース
２００７入出力インタフェース
２００８バス
２０１０表示装置
２０２０ネットワーク
２０３０サーバ

Claims

音声を特徴付ける第１の特徴値を、入力される音声信号の所定の音声区間に関して算出する特徴値算出部と、
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出する不要語検出部と、
前記不要語が含まれている音声区間の音声を特徴付ける第２の特徴値を用いて閾値を設定する閾値設定部と、
前記閾値を用いて、各音声区間の音声の重要度を算出する音声区間重要度算出部と、
を含む、情報処理装置。
前記不要語は、間投詞又は接続詞に分類される単語である請求項１に記載の情報処理装置。
前記特徴値算出部は、前記第１の特徴値として、前記所定の音声区間毎に前記音声の強度を算出し、
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の強度を前記第２の特徴値として用いることで、前記閾値を設定することを特徴とする請求項１又は２に記載の情報処理装置。
前記特徴値算出部は、前記第１の特徴値として、前記所定の音声区間毎に前記音声の抑揚を算出し、
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の抑揚を前記第２の特徴値として用いることで、前記閾値を設定することを特徴とする請求項１又は２に記載の情報処理装置。
前記特徴値算出部は、前記第１の特徴値として、前記所定の音声区間毎に前記音声の話速を算出し、
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の話速を前記第２の特徴値として用いることで、前記閾値を設定することを特徴とする請求項１又は２に記載の情報処理装置。
前記情報処理装置は、前記複数の単語の重要度を、該単語を発話している音声区間内に含まれている前記所定の音声区間の音声の重要度を用いて算出する、単語重要度算出部を更に備える、請求項１から５のいずれか１項に記載の情報処理装置。
音声を特徴付ける第１の特徴値を、入力される音声信号の所定の音声区間に関して算出し、
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出し、
前記不要語が含まれている音声区間の音声を特徴付ける第２の特徴値を用いて閾値を設定し、
前記閾値を用いて、各音声区間の音声の重要度を算出する、
処理をコンピュータに実行させるプログラム。
音声を特徴付ける第１の特徴値を、入力される音声信号の所定の音声区間に関して算出する工程と、
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出する工程と、
前記不要語が含まれている音声区間の音声を特徴付ける第２の特徴値を用いて閾値を設定する工程と、
前記閾値を用いて、各音声区間の音声の重要度を算出する工程と、
を含む、コンピュータが実行する方法。