JP3803301B2

JP3803301B2 - 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム

Info

Publication number: JP3803301B2
Application number: JP2002058447A
Authority: JP
Inventors: 浩太日▲高▼; 信弥中嶌; 理水野; 秀豪桑野; 治彦児島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-05
Filing date: 2002-03-05
Publication date: 2006-08-02
Anticipated expiration: 2022-03-05
Also published as: JP2003255981A

Description

【０００１】
【発明の属する技術分野】
この発明は映像付音声の内容の要部を決定する要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラムに関し、例えば求職者の自己ＰＲ映像を自動的に生成し、採用活動の負担を軽減する人材発掘システムに応用したものである。
【０００２】
【従来の技術】
従来の技術では、公共職業安定所等の職業斡旋所などに設置され、求人、求職者が独自に各種情報の伝達、交換をおこない、面接予約、テレビ電話を利用した簡易面接を援助する職業紹介システムがあった。たとえば、日本国特開平１１−１４３９５７号公報などに示されている。
また、応募者と企業とをネットワークを介して接続し、応募者と企業に関する情報をインタラクティブに管理するシステムがあった。たとえば、日本国特開２００１−２０２４０７公報などに示されている。
【０００３】
また、保有資格、実務経験年数、希望職種、履歴情報などから派遣労働者の適正や性能を診断する派遣労働者の登録システムがあった。たとえば、日本国特開２００１−２２９２７８公報などに示されている。
また、結婚紹介などで年齢、身長、体重、兄弟関係、学歴、職業、収入、趣味、特技などの文字データと、必要に応じて、自己紹介音声、映像をもちいて仲介者を必要としないコンピュータネットワークがあった。たとえば、日本国特開平６−１９９２６号公報などに示されている。
【０００４】
また、入力項目に応じて、スキル、担当業務内容などを自動的に抽出し、また、自己ＰＲポイントを自動的に抽出し、求職者が個人の職務経歴を入力すると、企業側が求めているサマリーを作成するなどの求職求人情報システムがあった。たとえば、日本国特開２００１−１４２９３９号公報などに示されている。
また、オーディションなどで自己の要旨、趣味範囲、思考、表現力、歌唱力などの才能を含むアピール情報に関する応募を簡易に行い、発掘側が検索するシステムがあった。たとえば、日本国特開２０００−３０５９８０公報などに示されている。
【０００５】
【発明が解決しようとする課題】
例えば採用者が採用活動を行うには、採用者が求職者の書類審査を行い、求職者を１回以上面接して採用可否を決定している。面接後、保存されるのは書類だけで求職者の印象は採用者の記憶にしか頼ることが出来ない。また、映像などに記録されていた場合においても、採用者の映像をすべて見ることは時間を浪費するため、現実的ではない。書類による第一次選考などの方法もあるが、時間的浪費を軽減するためのものであり、求職者本人に会うことなしに、あるいは求職者の映像を見ることなしに求職者が採用者の希望に見合わないかは判断不可能である。
【０００６】
日本国特開２００１−１４２９３９公報では、入力項目に応じて、スキル、担当業務内容などを自動抽出し、自己ＰＲポイントを自動抽出し、求職者が個人の職務履歴を入力すると、企業側が求めているサマリーを作成するなどの処理を施しているが、これらはテキスト情報から導かれたものであり、たとえば自己ＰＲをテキスト情報だけで判断することは不可能である。また、日本国特開２００１−２２９２７８公報では、派遣労働者の適正や、能力を判断しているが、適正や能力だけで採用するわけではなく、これらのみで採用可能であれば面接などは必要がない。テキスト情報に依存した採用システムは前記第一次選考の簡易化にすぎず、有用な方法とは言えない。
【０００７】
日本国特開平６−１９９２６号公報ではテキストベースの自己データに加えて、写真、映像などの登録も行い、また、日本国特開２０００−３０５９８０公報では、オーディションなどにたいして、自己の容姿などを画像や映像なども用いておこなえるシステムを開発しているが、これらは最終的には映録を再生する時間が必要であり、要旨を理解するには早送りなどの機能を用いても限界がある。
特開２００１−２０２４０７公報では、求職者と採用者を、ネットワークを介して接続し情報をインタラクティブに管理しているが採用の負担が軽減する構成にはなっていない。また、特開平１１−１４３９５７号公報ではＴＶ電話などにより、簡易的な面接も実現しているが、ネットワークを介しているだけであり、面接にかかる場所の移動以外に採用者の採用活動負担の軽減にはなっていない。
【０００８】
本発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、例えば求職者のように個人情報を提供する情報提供者が提供した映像を効率的に要約することで、多数の情報を短時間で閲覧し、多数の情報の中から目的に合致した情報を検索する作業量の激減を図ることができる要約情報提供方法、要約情報提供装置、要約情報提供プログラムを提供しようとするものである。
【０００９】
【課題を解決するための手段】
前記問題点を解決するために、情報提供者が提供する音声付映像を要約する要約情報提供方法を提供することを本発明の最も主要な特徴とするものである。
この発明では項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳とを用い、希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、前記強調状態での出現確率に基づいて強調状態となる確率を算出し、前記強調状態となる確率が所定の確率よりも大きい音声信号区間を要約区間と判定し、前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を出力する要約情報提供方法を提案する。
【００１０】
この発明では更に前記要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率に対応して平静状態での出現確率が格納され、前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、前記平静状態での出現確率に基づいて平静状態となる確率を算出し、前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間ごとに算出し、前記確率比の降順に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、前記要約区間の時間の総和が所定の要約時間となる音声信号区間を要約区間と決定する要約情報提供方法を提案する。
【００１１】
この発明では更に前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、音声小段落に含まれる有声区間の平均パワーが該音声小段落内の平均パワーの所定の定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、前記音声信号区間は音声段落ごとに定められたものであり、前記要約時間を音声段落ごとに累積して求め、前記強調状態の確率又は前記確率比の降順に音声段落ごとに前記要約区間の映像信号と音声信号を出力する要約情報提供方法を提案する。
【００１２】
この発明では更に項目別に映像信号と同時に収録された音声信号と、該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳とを用い、希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、前記強調状態となる確率が所定の確率より大きい音声信号区間を要約区間と判定する要約区間決定部と、前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を出力する出力部とを具備している要約情報提供装置を提案する。
【００１３】
この発明では更にコンピュータが読取り可能な符号によって記述され、前記の要約情報提供方法の何れかをコンピュータ上で実行する要約情報提供プログラムを提案する。
［作用］
この発明によれば音声要約手段は、情報提供者が提供する映像の音声を分析し、音声の重要部分（強調区間）を抽出している。そのため、音声の重要部分の映像をつなげて再生すると、映像の要旨や情報提供者の印象を強く伝えることが可能となり、本発明の目的である、提供された情報の要約を行うことが出来ることになる。
【００１４】
データセンタは、任意の時間やシーン数で、情報提供者である話者の映像を要約する。そのため、情報利用者（この要約情報提供方法を利用して例えば求人活動等を行う利用者）の希望する時間やシーン数で要約映像を視聴することが可能となり、本発明の目的である、採用者の採用活動の稼動を軽減することが出来ることになる。
情報利用者は希望する情報提供者の映像を原映像より短かい時間で要部に絞って視聴する。そのため、情報提供者の映像を情報利用者に強く印象付けることが可能となり、本発明の目的である検索活動の効率化が出来ることになる。
【００１５】
情報提供者は自己ＰＲ映像を情報利用者に視聴される。そのため、情報提供者がテキスト情報以外に情報利用者に自己アピールを行うことが可能となり、本発明の目的であるテキスト情報に依存しない検索活動が出来ることになる。
【００１６】
【発明の実施の形態】
ここで、この発明で用いられる音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法について、説明する。
図１５に先に提案した音声要約方法の実施形態の基本手順を示す。ステップＳ１で入力音声信号を分析して音声特徴量を求める。ステップＳ２で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップＳ３で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップＳ４で要約音声を作成し、要約音声を得る。
【００１７】
以下に、自然な話し言葉や会話音声を、要約に適用する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数（ｆ０）、パワー（ｐ）、音声の動的特徴量の時間変化特性（ｄ）、ポーズ時間長（無音区間）（ｐｓ）を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」（古井貞煕、近代科学社、１９９８）、「音声符号化」（守谷健弘、電子情報通信学会、１９９８）、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」（嵯峨山茂樹、博士論文、１９９８）などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第２９７６９９８号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するＬＰＣスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にＬＰＣスペクトラム係数Ｃ１（ｔ）、…Ｃｋ（ｔ）を抽出して次式のような動的特徴量ｄ（ダイナミックメジャー）を求める。ｄ（ｔ）＝Σi=1k［Σf=t-f0t+f0［ｆ×Ｃi（ｔ）］／（Σf=t-f0t+f0ｆ2）2ここで、ｆ０は前後の音声区間フレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）、ｋはＬＰＣスペクトラムの次数、ｉ＝１、２、…ｋである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【００１８】
実施例では例えば１００ｍｓを１フレームとし、シフトを５０ｍｓとする。１フレーム毎の平均の基本周波数を求める（ｆ０´）。パワーについても同様に１フレーム毎の平均パワー（ｐ´）を求める。更に現フレームのｆ０´と±ｉフレーム前後のｆ０´との差分をとり、±Δｆ０´ｉ（Δ成分）とする。パワーについても同様に現フレームのｐ´と±ｉフレーム前後のｐ´との差分±Δｐ´ｉ（Δ成分）を求める。ｆ０´、±Δｆ０´ｉ、ｐ´、±Δｐ´ｉを規格化する。この規格は例えばｆ０´、±Δｆ０´ｉをそれぞれ、音声波形全体の平均基本周波数で割り規格化する。これら規格化された値をｆ０″、±ｆ０″ｉと表す。ｐ´、±Δｐ´ｉについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、音声段落ごとの平均パワーで割ってもよい。これら規格化された値をｐ″、±Δｐ″ｉと表す。ｉの値は例えばｉ＝４とする。現フレームの前後±Ｔ１ｍｓの、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数ｄｐを算出する。これと、現フレームの開始時刻の、Ｔ２ｍｓ前の時刻を区間に含むフレームのｄｐとのΔ成分（−Δｄｐ）を求める。前記±Ｔ１ｍｓのｄｐと、現フレームの終了時刻の、Ｔ３ｍｓ後の時刻を区間に含むフレームのｄｐとのΔ成分（＋Δｄｐ）を求める。これら、Ｔ１、Ｔ２、Ｔ３の値は例えばＴ１＝Ｔ２＝Ｔ３＝４５０ｍｓとする。フレームの前後の無音区間の時間長を±ｐｓとする。ステップＳ１ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【００１９】
ステップＳ２における入力音声の音声小段落と、音声段落を抽出する方法の例を図１６に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップＳ２０１で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声／無声の決定は、周期性／非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声／無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期１／ｆ０（基本周波数ｆ０）の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【００２０】
ステップＳ２０２で、有声区間を囲む無音区間の時間がそれぞれｔ秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このｔは例えばｔ＝４００ｍｓとする。ステップＳ２０３で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値ＢＡの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
【００２１】
図１７に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がｔ秒の条件で、抽出する。図１７では、音声小段落ｊ−１、ｊ、ｊ＋１について示している。ここで音声小段落ｊは、ｎ個の有声区間から構成され、平均パワーをＰｊとする。有声区間の典型的な例として、音声小段落ｊに含まれる、有声区間ｖの平均パワーはｐｖである。音声段落ｋは、音声小段落ｊと音声小段落を構成する後半部分の有声区間のパワーから抽出する。ｉ＝ｎ−αからｎまでの有声区間の平均パワーｐｉの平均が音声小段落ｊの平均パワーＰｊより小さいとき、即ち、
Σｐｉ／（α＋１）＜βＰｊ式（１）
を満たす時、音声小段落ｊが音声段落ｋの末尾音声小段落であるとする。ただし、Σはｉ＝ｎ−αからｎまでである。式（１）のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは３、βは０．８とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【００２２】
図１５中のステップＳ３における音声小段落発話状態判定方法の例を図１８に示す。ステップＳ３０１で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも２つの量子化音声特徴量（コード）が格納された符号帳（コードブック）を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪（距離）を最小にする量子化音声特徴量を特定することが常套である。
【００２３】
図１９に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする（Ｓ５０１）。
例えば、被験者が発話の中で強調状態とする理由として、
（ａ）声が大きく、名詞や接続詞を伸ばすように発話する
（ｂ）話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
（ｃ）声を大きく高くして重要な名詞等を強調する時
（ｄ）高音であるが声はそれほど大きくない
（ｅ）苦笑いしながら、焦りから本音をごまかすような時
（ｆ）周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
（ｇ）ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
（ｈ）声が大きく高く、割り込んで発話するという主張、相手より大きな声で
（ｉ）大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時（例えば声が小さくボソボソ、ヒソヒソという口調）を挙げた。この例では、平静状態とは、前記の（ａ）〜（ｉ）のいずれでもなく、発話が平静であると被験者が感じたものとした。
【００２４】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは音声付の楽曲において、音声から強調状態を特定しようとした場合に、強調と感じる理由として、
（ａ）声が大きく、かつ声が高い
（ｂ）声が力強い
（ｃ）声が高く、かつアクセントが強い
（ｄ）声が高く、声質が変化する
（ｅ）声を伸長させ、かつ声が大きい
（ｆ）声が大きく、かつ、声が高く、アクセントが強い
（ｇ）声が大きく、かつ、声が高く、叫んでいる
（ｈ）声が高く、アクセントが変化する
（ｉ）声を伸長させ、かつ、声が大きく、語尾が高い
（ｊ）声が高く、かつ、声を伸長させる
（ｋ）声を伸長させ、かつ、叫び、声が高い
（ｌ）語尾上がり力強い
（ｍ）ゆっくり強め
（ｎ）曲調が不規則
（ｏ）曲調が不規則、かつ、声が高いまた、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる理由として、
（ａ）強調部分全体のパワー増大
（ｂ）音の高低差が大きい
（ｃ）パワーが増大する
（ｄ）楽器の数が変化する
（ｅ）曲調、テンポが変化する
等である。
【００２５】
これらを基にコードブックを作成しておくことにより、発話に限らず音楽の要約も行うことができることになる。
平静状態と強調状態の各ラベル区間について、図１５中のステップＳ１と同様に、音声特徴量を抽出し（Ｓ５０２）、パラメータを選択する（Ｓ５０３）。平静状態と強調状態のラベル区間の、前記パラメータを用いて、ＬＢＧアルゴリズムでコードブックを作成する（Ｓ５０４）。ＬＢＧアルゴリズムについては、例えば、（Ｙ．Ｌｉｎｄｅ，Ａ．ＢｕｚｏａｎｄＲ．Ｍ．Ｇｒａｙ，“Ａｎａｌｇｏｒｉｔｈｍｆｏｒｖｅｃｔｏｒｑｕａｎｔｉｚｅｒｄｅｓｉｇｎ，”ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，ｖｏｌ．Ｃｏｍ−２８，ｐｐ．８４−９５，１９８０）がある。コードブックサイズは２のｎ乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【００２６】
図１８中のステップＳ３０１で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード（量子化された音声特徴量）を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度（らしさ）を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード（量子化音声特徴量）の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた１つの区間（ラベル区間）の音声特徴量のコード（フレーム毎に得られる）が、時系列でＣｉ、Ｃｊ、Ｃｋ、…Ｃｎであるとき、ラベル区間αが強調状態となる確率をＰα（ｅ）、平静状態となる確率をＰα（ｎ）とし、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｉ）Ｐｅｍｐ（Ｃｊ｜Ｃｉ）…Ｐｅｍｐ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｉ）Ｐｎｒｍ（Ｃｊ｜Ｃｉ）…Ｐｎｒｍ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
となる。ただし、Ｐｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）はコード列Ｃｉ…Ｃｘ−１の次にＣｘが強調状態となる条件付確率、Ｐｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）は同様にＣｉ…Ｃｘ−１に対しＣｘが平静状態となる確率である。ただし、Πはｘ＝ｉ＋１からｎまでの積である。またＰｅｍｐ（Ｃｉ）は学習音声についてフレームで量子化し、これらコード中のＣｉが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数（フレーム数）で割り算した値であり、Ｐｎｒｍ（Ｃｉ）はＣｉが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【００２７】
このラベル区間αの各状態確率を簡単にするために、この例ではＮ−ｇｒａｍモデル（Ｎ＜ｎ）を用いて、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
とする。つまりＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが強調状態として得られる確率をＰα（ｅ）とし、同様にＮ−ｇｒａｍの確率値をより低次のＭ−ｇｒａｍ（Ｎ≧Ｍ）の確率値と線形に補間する線形補間法を適応することが好ましい。例えばＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが平静状態として得られる確率をＰα（ｎ）とする。このようなＰα（ｅ）、Ｐα（ｎ）の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次（即ちコード列の長い）の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばＮ＝３のｔｒｉｇｒａｍ、Ｎ＝２のｂｉｇｒａｍ、Ｎ＝１のｕｎｉｇｒａｍを用いて線形補間法を施す。Ｎ−ｇｒａｍ、線形補間法、ｔｒｉｇｒａｍについては、例えば、「音声言語処理」（北研二、中村哲、永田昌明、森北出版、１９９６、２９頁）などに述べられている。即ち、
Ｎ＝３（ｔｒｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）
Ｎ＝２（ｂｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−１）
Ｎ＝１（ｕｎｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ）、Ｐｎｒｍ（Ｃｎ）
であり、これら３つの強調状態でのＣｎの出現確率、また３つの平静状態でのＣｎの出現確率をそれぞれ用いて次式により、Ｐｅｍｐ（Ｃｎ|Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ|Ｃｎ−２Ｃｎ−１）を計算することにする。
Ｐｅｍｐ（Ｃｎ|Ｃｎ−２Ｃｎ−１）＝λｅｍｐ１Ｐｅｍｐ（Ｃｎ|Ｃｎ−２Ｃｎ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ|Ｃｎ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）
式（２）
Ｐｎｒｍ（Ｃｎ|Ｃｎ−２Ｃｎ−１）＝λｎｒｍｌＰｎｒｍ（Ｃｎ|Ｃｎ−２Ｃｎ−１）＋λｎｒｍ２Ｐｎｒｍ（Ｃｎ|Ｃｎ−１）＋λｎｒｍ３Ｐｎｒｍ（Ｃｎ）
式（３）
Ｔｒｉｇｒａｍの学習データをＮとしたとき、すなわち、コードが時系列でＣ１、Ｃ２、．．．ＣＮが得られたとき、λｅｍｐ１、λｅｍｐ２、λｅｍｐ３の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λｅｍｐ１＝１／ＮΣ（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ２＝１／ＮΣ（λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ３＝１／ＮΣ（λｅｍｐ３Ｐｅｍｐ（Ｃｎ）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
ただし、Σはｎ＝１からＮまでの和である。以下同様にしてλｎｒｍ１、λｎｒｍ２、λｎｒｍ３も求められる。
【００２８】
この例では、ラベル区間αがフレーム数Ｎαで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮαのとき、このラベル区間αが強調状態となる確率Ｐα（ｅ）、平静状態となる確率Ｐα（ｎ）は、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｅｍｐ（ＣｉＮα｜Ｃｉ（Ｎα−１）Ｃｉ（Ｎα−２））式（４）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｎｒｍ（ＣｉＮα｜Ｃｉ（Ｎα−１）Ｃｉ（Ｎα−２））式（５）
となる。この計算ができるように前記のｔｒｉｇｒａｍ、ｕｎｉｇｒａｍ、ｂｉｇｒａｍを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【００２９】
例えば図１０に示すようにコードブックには各コードＣ１、Ｃ２、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図１８中のステップＳ３０２では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図２１に実施例の模式図を示す。時刻ｔから始まる音声小段落のうち、第４フレームまでを（１）〜（４）で示している。前記のように、ここでは、フレーム長は１００ｍｓ、フレームシフトを５０ｍｓとフレーム長の方を長くした。（１）フレーム番号ｆ、時刻ｔ〜ｔ＋１００でコードＣｉが、（２）フレーム番号ｆ＋１、時刻ｔ＋５０〜ｔ＋１５０でコードＣｊが、（３）フレーム番号ｆ＋２、時刻ｔ＋１００〜ｔ＋２００でコードＣｋが、（４）フレーム番号ｆ＋３、時刻ｔ＋１５０〜ｔ＋２５０でコードＣｌが得られ、つまりフレーム順にコードがＣｉ、Ｃｊ、Ｃｋ、Ｃｌであるとき、フレーム番号ｆ＋２以上のフレームでｔｒｉｇｒａｍが計算できる。音声小段落ｓが強調状態となる確率をＰｓ（ｅ）、平静状態となる確率をＰｓ（ｎ）とすると第４フレームまでの確率はそれぞれ、
Ｐｓ（ｅ）＝Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）
式（６）
Ｐｓ（ｎ）＝Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）
式（７）
となる。ただし、この例では、コードブックからＣｋ、Ｃｌの強調状態及び平静状態の各単独出現確率を求め、またＣｊの次にＣｋが強調状態及び平静状態で各出現する条件付確率、更にＣｋがＣｉ、Ｃｊの次に、ＣｌがＣｊ、Ｃｋの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。
Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）＝λｅｍｐ１Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）＋λｅｍｐ２Ｐｅｍｐ（Ｃｋ｜Ｃｊ）＋λｅｍｐ３Ｐｅｍｐ（Ｃｋ）式（８）
Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）＝λｅｍｐ１Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）＋λｅｍｐ２Ｐｅｍｐ（Ｃｌ｜Ｃｋ）＋λｅｍｐ３Ｐｅｍｐ（Ｃｌ）式（９）
Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）＝λｎｒｍ１Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）＋λｎｒｍ２Ｐｎｒｍ（Ｃｋ｜Ｃｊ）＋λｎｒｍ３Ｐｎｒｍ（Ｃｋ）式（１０）
Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）＝λｎｒｍ１Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）＋λｎｒｍ２Ｐｎｒｍ（Ｃｌ｜Ｃｋ）＋λｎｒｍ３Ｐｎｒｍ（Ｃｌ）式（１１）
上記（８）〜（１１）式を用いて（６）式と（７）式で示される第４フレームまでの強調状態となる確率Ｐｓ（ｅ）と、平静状態となる確率Ｐｓ（ｎ）が求まる。ここで、Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）、Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）はフレーム番号ｆ＋２において計算できる。
【００３０】
この例では、音声小段落ｓがフレーム数Ｎｓで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮｓのとき、この音声小段落ｓが強調状態になる確率Ｐｓ（ｅ）と平静状態になる確率Ｐｓ（ｎ）を次式により計算する。
Ｐｓ（ｅ）＝Ｐｅｍｐ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｅｍｐ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
Ｐｓ（ｎ）＝Ｐｎｒｍ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｎｒｍ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
この例ではこれらの確率が、Ｐｓ（ｅ）＞Ｐｓ（ｎ）であれば、その音声小段落Ｓは強調状態、Ｐｓ（ｎ）＞Ｐｓ（ｅ）であれば平静状態とする。
【００３１】
図２２は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部１１に音声強調状態が判定されるべき、又は音声の要約が検出されるべき入力音声（入力音声信号）が入力される。入力部１１には必要に応じて入力音声信号をディジタル信号に変換する機能も含まれる。ディジタル化された音声信号は必要に応じて記憶部１２に格納される。音声特徴量抽出部１３で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部１４で各フレームの音声特徴量がコードブック１５を参照して量子化され、量子化された音声特徴量は強調確率計算部１６と平静確率計算部１７に送り込まれる。コードブック１５は例えば図２０に示したようなものである。
【００３２】
強調確率計算部１６によりその量子化された音声特徴量の強調状態での出現確率が、コードブック１５に格納されている対応する確率を用いて、例えば式（８）又は（９）により計算される。同様に平静確率計算部１７により、前記量子化された音声特徴量の平静状態での出現確率がコードブック１５に格納されている対応する確率を用いて、例えば式（１０）又は（１１）により計算される。強調確率計算部１６及び平静確率計算部１７で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部１２に格納する。
【００３３】
これら各部の制御は制御部１９の制御のもとに順次行われる。
音声要約装置の実施形態は、図２２中に実線ブロックに対し、破線ブロックが付加される。つまり記憶部１２に格納されている各フレームの音声特徴量が無音区間判定部２１と有音区間判定部２２に送り込まれ、無音区間判定部２１により各フレーム毎に無音区間か否かが判定され、また有音区間判定部２２により各フレーム毎に有声区間か否かが判定される。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部２３に入力される。音声小段落判定部２３はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定する。音声小段落判定部２３の判定結果は記憶部１２に書き込まれ、記憶部１２に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部２３の判定結果は末尾音声小段落判定部２４に入力される。
【００３４】
末尾音声小段落判定部２４では、例えば図１７を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部２５に入力され、音声段落判定部２５により２つの末尾音声小段落間の複数の音声小段落を含む部分を音声段落と判定する。この音声段落判定結果も記憶部１２に書き込まれ、記憶部１２に記憶している音声小段落番号列に音声段落列番号を付与する。
音声要約装置として動作する場合、強調確率計算部１６及び平静確率計算部１７では記憶部１２から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式（８）及び式（１０）により計算される。強調状態判定部１８ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部２６では音声段落中の１つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部１９により行われる。
【００３５】
以上により音声で構成される音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できることが理解できよう。
以下では上述した各方法を利用したこの発明による音声処理方法、音声処理装置及び音声処理プログラムに関わる実施の形態を説明する。
図２３にこの発明の音声処理方法の実施の形態の基本手順を示す。この実施例ではステップＳ１１で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【００３６】
ステップＳ１２では要約条件入力ステップＳ１２を実行する。この要約条件入力ステップＳ１２では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップＳ１３では抽出条件の変更を繰り返す動作を実行し、ステップＳ１２の要約条件入力ステップＳ１２で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【００３７】
ステップＳ１４で要約抽出ステップを実行する。この要約抽出ステップＳ１４では抽出条件変更ステップＳ１３で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ１５では要約再生処理を実行し、要約抽出ステップＳ１４で抽出した音声段落列を再生する。
図２４は図２３に示した音声強調確率算出ステップの詳細を示す。
ステップＳ１０１で要約対象とする音声波形列を音声小段落に分離する。
【００３８】
ステップＳ１０２ではステップＳ１０１で分離した音声小段落列から音声段落を抽出する。音声段落とは図１７で説明したように、１つ以上の音声小段落で構成され、意味を理解できる単位である。
ステップＳ１０３及びステップＳ１０４でステップＳ１０１で抽出した音声小段落毎に図２０で説明したコードブックと前記した式（８）、（１０）等を利用して各音声小段落が強調状態となる確率（以下強調確率と称す）Ｐｓ（ｅ）と、平静状態となる確率（以下平静確率と称す）Ｐｓ（ｎ）とを求める。
【００３９】
ステップＳ１０５ではステップＳ１０３及びＳ１０４において各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図２５に記憶手段に格納した音声強調確率テーブルの一例を示す。図２５に示すＦ１、Ｆ２、Ｆ３…は音声小段落毎に求めた音声小段落強調確率Ｐｓ（ｅ）と、音声小段落平静確率Ｐｓ（ｎ）を記録した小段落確率記憶部を示す。これらの小段落確率記憶部Ｆ１、Ｆ２、Ｆ３…には各音声小段落Ｓに付された音声小段落番号ｉと、開始時刻（言語列の先頭から計時した時刻）終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数ｆｎ等が格納される。
【００４０】
要約条件入力ステップＳ１２で入力する条件としては要約すべきコンテンツの全長を１／Ｘ（Ｘは正の整数）の時間に要約することを示す要約率Ｘ（請求項１記載の要約率を指す）、あるいは要約時間ｔを入力する。
この要約条件の設定に対し、抽出条件変更ステップＳ１３では初期値として重み係数ＷをＷ＝１に設定し、この重み係数を要約抽出ステップＳ１４に入力する。
要約抽出ステップＳ１４は重み係数Ｗ＝１として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｅ）とを比較し、
Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間ＭＴ（分）を求める。
【００４１】
抽出した音声段落列の総延長時間ＭＴ（分）と要約条件で決めた所定の要約時間ＹＴ（分）とを比較する。ここでＭＴ≒ＹＴ（ＹＴに対するＭＴの誤差が例えば±数％程度の範囲）であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間ＹＴに対するコンテンツの要約した総延長時間ＭＴとの誤差値が規定より大きく、その関係がＭＴ＞ＹＴであれば抽出した音声段落列の総延長時間ＭＴ（分）が、要約条件で定めた要約時間ＹＴ（分）より長いと判定し、図２３に示した抽出条件変更ステップＳ１３を再実行させる。抽出条件変更ステップＳ１３では重み係数がＷ＝１で抽出した音声段落列の総延長時間ＭＴ（分）が要約条件で定めた要約時間ＹＴ（分）より「長い」とする判定結果を受けて強調確率Ｐｓ（ｅ）に現在値より小さい重み付け係数Ｗ（請求項１記載の所定の係数の場合は現在値よりも大きくする）を乗算Ｗ・Ｐｓ（ｅ）して重み付けを施す。重み係数Ｗとしては例えばＷ＝１−０．００１×Ｋ（Ｋはループ回数）で求める。
【００４２】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ｐｓ（ｅ）の配列に１回目のループではＷ＝１−０．００１×１で決まる重み係数Ｗ＝０．９９９を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率Ｗ・Ｐｓ（ｅ）と各音声小段落の平静確率Ｐｓ（ｎ）とを比較し、Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップＳ１４では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間ＭＴ（分）を算出し、この総延長時間ＭＴ（分）と要約条件で定められる要約時間ＹＴ（分）とを比較する。比較の結果がＭＴ≒ＹＴであれば、その音声段落列を要約音声と決定し、再生する。
【００４３】
１回目の重み付け処理の結果が依然としてＭＴ＞ＹＴであれば抽出条件変更ステップを、２回目のループとして実行させる。このとき重み係数ＷはＷ＝１−０．００１×２で求める。全ての強調確率Ｐｓ（ｅ）にＷ＝０．９９８の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Ｗの値を徐々に小さくするように抽出条件を変更していくことによりＷＰｓ（ｅ）＞Ｐｓ（ｎ）の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすＭＴ≒ＹＴの状態を検出することができる。
【００４４】
尚、上述では要約時間ＭＴの収束条件としてＭＴ≒ＹＴとしたが、厳密にＭＴ＝ＹＴに収束させることもできる。この場合には要約条件に例えば５秒不足している場合、あと１つの音声段落を加えると１０秒超過してしまうが、音声段落から５秒のみ再生することで利用者の要約条件に一致させることができる。また、この５秒は強調と判定された音声小段落の付近の５秒でもよいし、音声段落の先頭から５秒でもよい。
また、上述した初期状態でＭＴ＜ＹＴと判定された場合は重み係数Ｗを現在値よりも小さく例えばＷ＝１−０．００１×Ｋとして求め、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算し、平静確率Ｐｓ（ｎ）に重み付けを施せばよい。また、他の方法としては初期状態でＭＴ＞ＹＴと判定された場合に重み係数を現在値より大きくＷ＝１＋０．００１×Ｋとし、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算してもよい。
【００４５】
また、要約再生ステップＳ１５では要約抽出ステップＳ１４で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Ｗを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Ｗに各音声小段落を構成するフレームの数Ｆ乗してＷFとして重み付けを行うことが望ましい。
【００４６】
つまり、式（８）及び式（１０）で算出する条件付の強調確率Ｐｓ（ｅ）は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ｐｓ（ｎ）も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ｐｓ（ｅ）に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Ｗを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をＦとすれば重み係数ＷはＷFとなる。
【００４７】
この結果、フレームの数Ｆに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Ｗを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数ＷをＷFとする必要はない。
【００４８】
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に重み付けを施してＰｓ（ｅ）＞Ｐｓ（ｎ）を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）に関してその確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を演算し、この確率比の降順に対応する音声信号区間（音声小段落）を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【００４９】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ｐｓ（ｅ）及び平静確率Ｐｓ（ｎ）として用いることもできる。
【００５０】
従って、この強調確率Ｐｓ（ｅ）及び平静確率Ｐｓ（ｎ）の算出方法を採る場合には重み付けに用いる重み付け係数Ｗはそのまま強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に乗算すればよい。
図２６を用いて要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図２２に示した音声強調状態要約装置の構成に要約条件入力部３１と、音声強調確率テーブル３２と、強調小段落抽出部３３と、抽出条件変更部３４と、要約区間仮判定部３５と、この要約区間仮判定部３５の内部に要約音声の総延長時間を求める総延長時間算出部３５Ａと、この総延長時間算出部３５Ａが算出した要約音声の総延長時間が要約条件入力部３１で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部３５Ｂと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部３５Ｃを設けた構成とした点を特徴とするものである。
【００５１】
入力音声は図２１で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部１６と平静確率計算部１７でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部１２に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この発明による音声処理装置では強調確率算出部１６と平静確率算出部１７は記憶部１２に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）とを求め、これら強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を音声強調テーブル３２に格納する。
【００５２】
音声強調テーブル３２には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部３１に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を１／１０に要約するか、或は時間で１０分に要約するなどの入力方法が考えられる。ここで例えば１／１０と入力した場合は要約時間算出部３１Ａはコンテンツの全長時間を１／１０した時間を算出し、その算出した要約時間を要約区間仮判定部３５の要約区間決定部３５Ｂに送り込む。
【００５３】
要約条件入力部３１に要約条件が入力されたことを受けて制御部１９は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル３２から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部３３に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に確率比の逆数となる重み付け係数Ｗを乗算しＷ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【００５４】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数ＷをＷ＝１として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）の確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばＰｓ（ｅ）／Ｐｓ（ｎ）≧１である場合を強調状態と判定することが考えられる。
この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部３３から要約区間仮判定部３５に送り込む。要約区間仮判定部３５では強調状態と判定した強調小段落番号を含む音声段落を記憶部１２に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部３５Ａで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部３５Ｂで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部３５Ｃで保存し、再生する。この再生動作は強調小段落抽出部３３で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【００５５】
要約区間決定部３５Ｂで要約条件を満たしていないと判定した場合は、要約区間決定部３５Ｂから抽出条件変更部３４に抽出条件の変更指令を出力し、抽出条件変更部３４に抽出条件の変更を行わせる。抽出条件変更部３４は抽出条件の変更を行い、その抽出条件を強調小段落抽出部３３に入力する。強調小段落抽出部３３は抽出条件変更部３４から入力された抽出条件に従って再び音声強調確率テーブル３２に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
【００５６】
強調小段落抽出部３３の抽出結果は再び要約区間仮判定部３５に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部３５Ｂで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部１２から読み出されユーザ端末に配信される。
以上により音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できること及び音声の要約率を自由に変更して任意の長さの要約音声を得ることができることが理解できよう。
【００５７】
尚、上述では要約区間の開始時刻及び終了時刻を要約区間と判定した音声段落列の開始時刻及び終了時刻として取り出すことを説明したが、映像付のコンテンツの場合は要約区間と判定した音声段落列の開始時刻と終了時刻に接近した映像信号のカット点を例えば特開平８−３２９２４号公報記載の手段で検出し、このカット点（画面の切替わりに発生する信号を利用する）の時刻で要約区間の開始時刻及び終了時刻を規定する方法も考えられる。このように映像信号のカット点を要約区間の開始時刻及び終了時刻に利用した場合は、要約区間の切替わりが画像の切替わりに同期するため、視覚上で視認性が高まり要約の理解度を向上できる利点が得られる。
【００５８】
以下では上述した各方法を利用したこの発明による要約情報提供方法、要約情報提供装置及びそのプログラムに関わる実施の形態を説明する。
［実施例１］
これより、実施例１として、たとえば、卒業予定の学生の採用や、派遣社員の採用、アルバイト・パート勤務採用などの人材発掘システムにこの発明による要約情報提供方法を適用した実施例を述べる。
図１に、この発明の実施例１を示す。この発明による要約情報提供装置は属性情報として応募者等の個人情報とその映像付音声信号を入力する求職者登録部１００と、ネットワーク２００と、データセンタ３００と、このデータセンタ３００の出力側に設けられた出力部３０９と、採用者発掘部４００と、課金部５００とによって構成される。求職者登録部１００で求職者は求職者であることを登録する。登録データはネットワーク２００を経由して、データセンタ３００に送り込まれ、他の属性情報と共にデータベースに蓄積される。
【００５９】
採用者発掘部４００では希望属性情報として採用条件情報を入力し、希望属性情報を満足する属性情報をもつ応募者の映像付音声信号の要約部分をデータセンタ３００から受信し、これを再生した映像乃至音声を採用者が視聴することによって求職者を選択する手がかりとする。
課金部５００はデータセンタ３００において採用者へのデータ提供、求職者からのデータ入力等の処理に伴い課金処理を行う。例えば、データセンタから各処理に応じた課金要求信号を受けて各利用者金融口座における金融残高から各処理に対する対価相当分を控除したり、データ管理者の金融口座における金融残高に利用手数料相当分を加算する。
【００６０】
図２は求職者登録部１００の構成の一例を示す。求職者登録部１００は、個人情報登録部１０１、映像撮影部１０２、保存記録部１０３、データセンタ送信部１０４とから構成される。
個人情報登録部１０１で求職者個人の属性情報を入力する。入力に用いる端末はパーソナルコンピュータ、情報を入出力可能な家電製品、携帯電話のいずれでもよい。
図３は、個人情報登録画面の典型的な例である。たとえば、ステップＳＩ１０１−１で求職者の名前を入力し、ステップＳＩ１０１−２で年齢を入力し、ステップＳＩ１０１−３で住所を入力し、ステップＳＩ１０１−４で電話番号を入力し、ステップＳＩ１０１−５で希望する職種を選択し、ステップＳＩ１０１−６で希望就業日数／週を選択し、ステップＳＩ１０１−７で就業形態を選択し、ステップＳＩ１０１−８で希望年収を選択し、ステップＳＩ１０１−９で学歴を入力し、ステップＳＩ１０１−１０で免許などを入力する。前記ステップＳＩ１０１−１からステップＳＩ１０１−１０は全て選択式でもよく、記述入力式でもよい。
【００６１】
図３で示した個人情報登録画面の登録内容は、任意であり、その内容に関しては後記するデータセンタ３００の運営者が設定してもよく、また採用者発掘部４００が設定してもよい。また、全て求職者の自由な表記にしてもよい。
図４は、図２に示した映像撮影部１０２では映像信号と音声信号を同時に撮影して求職者本人のＰＲ画像として取得する。図４Ａは撮影機１０２−１で、自己ＰＲを録画する様子を示す。撮影機１０２−１は、市販のビデオカメラでも、パーソナルコンピュータや、携帯電話に付属した動画撮影可能なカメラでもよい。また、ディジタルで録画していても、アナログで録画していてもよく、ディジタル化されている場合、圧縮されているか否かはいずれでもよく、圧縮されていた場合、その圧縮形式はいずれのものでもよい。
【００６２】
図４Ｂは求職者が撮影機１０２−１に向って自己ＰＲを行なっている様子を示す。自己ＰＲで使用する項目は、たとえば、学歴、職歴などは、後記するデータセンタ３００の運用者が設定してもよく、採用者が設定してもよい。また、全て求職者の自由な表記にしてもよい。
図５にデータセンタ３００の運用者、もしくは採用者が設定した場合の自己ＰＲ用の項目を挙げる。たとえば、求職者は各項目をＰＲする際、「私の名前は…」のように項目名を発言するなどのルールを決めてもよく、また各項目毎に撮影するなどのルールを設定して、各項目のＰＲ開始時刻を、たとえば映像の切り替わりで示してもよく、あるいは、前記ルールを一切決めなくてもよい。
【００６３】
保存記録部１０３は、たとえば、パーソナルコンピュータなどに撮像データをディジタル化してファイルとして保存する。この時、ディジタル化したファイルは圧縮されているか否かはいずれでもよく、圧縮する場合においても、いずれの圧縮形式でもよい。
データセンタ送信部１０４（図２）は、前記個人情報登録部１０１で登録した個人情報と保存記録部１０３で保存した自己ＰＲ映像を後記するデータセンタ３００へ送信する。送信方法としてはたとえば、ディジタル化された自己ＰＲ映像ファイルをネットワーク２００を経由してデータセンタ３００へ送信してもよい。ただし、データセンタ３００で自己ＰＲビデオをディジタル化する場合、前記保存記録部１０３におけるディジタル化して保存する手続きは不必要である。
【００６４】
ネットワーク２００はインターネット、ＬＡＮ、電話回線、ＢＳ、ＣＳ、ＣＡＴＶのいずれでもよい。たとえば、インターネットプロバイダーなどのネットワーク仲介者が運用したものでよい。
図６はデータセンタ３００の構成の一例を示す。データセンタ３００は求職者データ入力部３０１、求職者個人情報データベース３０２と、自己ＰＲ音声映像データベース３０３と、採用条件入力部３０４と、検索部３０５と、自己ＰＲ音声映像要約部３０６と、自己ＰＲ音声映像配信部３０７と、採用者評価部３０８と、連絡部３０９とから構成される。
【００６５】
求職者データ入力部３０１は、前記データセンタ送信部１０４（図２）から送信された求職者の属性情報と自己ＰＲ音声映像ファイルを入力し、求職者個人情報データベース３０２と自己ＰＲ音声映像データベース３０３に保存する。採用条件入力部３０４は、採用者からの希望属性情報となる採用条件項目を入力する。
図７に、希望属性情報となる採用条件項目の例を示す。たとえば、採用者は採用の条件として、学歴や業務経験などを指定する。採用条件項目は、何らかのフォーマットにしたがってたとえばパーソナルコンピュータで作成してもよく、マウスなどの機器を用いて選択する方法であってもよい。入力はたとえば、インターネットのホームページから入力するものでもよい。検索部３０５は求職者個人情報データベース３０２から、採用条件入力部３０４で採用者から入力された希望属性情報と一致する属性情報を検索する。希望属性情報と一致する属性情報がない場合、最も希望属性情報に近い属性情報を検索する。自己ＰＲ音声映像要約部３０６は検索部３０５で検索した属性情報に該当する自己ＰＲビデオを要約する。
【００６６】
図８に自己ＰＲ音声映像要約部３０６の一例を示す。自己ＰＲ音声映像要約部３０６は要約条件入力部３０６−１と、自己ＰＲ音声映像入力部３０６−２と、映像・音声分離部３０６−３と、自己ＰＲ項目検出部３０６−４と、カット点抽出部３０６−５と、音声認識部３０６−６と、音声映像要約部３０６−８と、映像編集部３０６−９とによって構成される。
要約条件入力部３０６−１は、たとえば、採用者が入力した希望属性情報を採用者発掘部４００に相当する端末からネットワーク２００を介して入力するか又はデータセンタ３００の運用者が設定することができる。入力は例えばパーソナルコンピュータ上の画面にて行うことができる。
【００６７】
図９に要約条件入力のための画面について、典型的な例を示す。要約条件としては一人あたりの自己ＰＲ映像の視聴を、視聴時間で設定するか又は映像のシーン数で設定するかを選択する。図９に示す例では、ステップＳＩ３０６−１−１を選択しており、左の丸印がチェックされている。視聴時間を選択した場合、ステップＳＩ３０６−１−２で、採用者の希望する視聴時間を要約時間として入力して各求職者当たり略この視聴時間に自己ＰＲ映像を要約することになる。図９では、３０秒に設定している。尚、視聴シーン数を選択した場合はステップＳＩ３０６−１−４で、採用者の希望するシーン数を入力する。
【００６８】
自己ＰＲ映像入力部３０６−２では自己ＰＲ音声映像データベース３０３から検索部３０５で検索された人材の自己ＰＲ映像を入力し、映像・音声分離部３０６−３で映像から音声を分離する。ただし、元の自己ＰＲ映像は音声付のまま保存しておき、分離した音声をたとえば、ハードディスクやコンピュータのメモリ上に保存しておく。後記する音声処理を施す場合は、映像・音声分離部３０６−３で分離した音声を用いる。また映像処理を施す場合は音声付の自己ＰＲ映像を用いる。
【００６９】
自己ＰＲ項目検出部３０６−４では自己ＰＲ項目を検出する。自己ＰＲ映像のＰＲ項目があらかじめデータセンタ３００の運用者や採用者が設定している場合、前記のように、求職者がＰＲ項目毎に撮影し一旦撮影機の録画を停止することでその前後のフレーム間での映像情報の差が著しくなり、映像にカット点が出現する。カット点抽出部３０６−５ではこのカット点を利用して各ＰＲの開始時刻と終了時刻を得ることができる。また、求職者がデータセンタ３００に登録する際に、ＰＲ項目ごとに自己ＰＲ映像ファイルを作成しておいてもよい。また、各ＰＲ項目の開始にあたって、たとえば、図５の７番目のＰＲ項目において求職者が「これからの仕事で一番してみたいことは…」と発話することで、音声認識部３０６−７で各ＰＲの開始時刻と終了時刻を得ることができる。
【００７０】
音声認識方法については、たとえば、日本国特開平８−６５８８号などに示されている。音声映像要約部３０６−８は、上述した強調状態判定手段により発話の強調状態を検出し、聴取して意味の理解できる単位としての音声段落を抽出し、強調を含む音声段落をつなぎ合わせて先に説明した方法により要約音声を生成する。これと共に、要約音声区間に対応する映像を切り出して要約映像情報を得る。
図１０は自己ＰＲ映像要約の手段の模式図である。ステップＳＩ３０６−８−１で上述した強調確率を時系列で求め、ステップＳＩ３０６−８−２で音声段落を抽出する。ステップＳＩ３０６−８−３で抽出した音声段落が強調を含む音声段落である場合、対応するステップＳＩ３０６−８−４の自己ＰＲ映像を、自己ＰＲ要約映像に用いる候補とする。要約条件入力部３０６−１（図８）で設定された要約条件について、たとえば、図９で示した自己ＰＲ視聴時間を一人当り３０秒で再生する条件の場合の、自己ＰＲ映像要約方法について、図１１に示す。以下にその実施例について述べる。
【００７１】
ステップＳＩ３０６−８−５で強調状態区間を含む音声段落区間を抽出する。音声段落の各々の強調確率からステップＳＩ３０６−８−６で、音声段落毎に求められる強調確率もしくは強調確率の平静状態である確率に対する確率比の降順に強調の順位を定める。ステップＳＩ３０６−８−７では自己ＰＲ視聴時間を例えば一人当り３０秒で作成するために、定められた強調の順位ごとに音声段落毎の再生時間を累積し、与えられた視聴時間（この場合３０秒）に最も近似するように音声段落の数を決定する。図１１に示す例では、ステップＳＩ３０６−８−６で付与した強調の順位に従い、３つの音声段落（可と判定した音声段落）をつなぎ合わせた場合に、３０秒の自己ＰＲ要約映像となる例である。ステップＳＩ３０６−８−８で、前記ステップＳＩ３０６−８−７で可と判定した３つの音声段落について、再生順序を決める。たとえば、ステップ３０６−８−８に示すように時系列に再生すればよく、また、前記ステップＳＩ３０６−８−６で付与した強調の順位にしたがって再生してもよい。ステップＳＩ３０６−８−９で自己ＰＲ要約映像を作成する。自己ＰＲ要約映像は、ステップＳＩ３０６−８−８で決定した再生順序に従って音声段落をつなぎ合わせて生成される。
【００７２】
自己ＰＲ音声映像配信部３０７（図６参照）は自己ＰＲ映像要約部３０６で作成した自己ＰＲ要約音声映像と個人情報を含む属性情報を採用者発掘部４００へ送信する。採用者発掘部４００が自己ＰＲ音声映像配信部３０７から受信した求職者の自己ＰＲ要約音声映像を視聴した後、（求職者の映像を視聴して）採用者の評価情報を入力し、データセンタ３００の採用者評価受信部３０８に送信する。ここで得た採用者の評価を必要に応じて求職者登録部１００である求職者端末に送信する。
【００７３】
図１３は採用者発掘部４００の動作を説明するための流れ図を示す。
ステップＳＩ４０２で採用者が採用条件を入力する。たとえば、図７のような項目について条件を入力する。ステップＳＩ４０３で自己ＰＲ映像要約条件を入力する。たとえば、図９のように入力する。ステップＳＩ４０４で自己ＰＲ要約映像を視聴し、ステップＳＩ４０５で再度自己ＰＲ要約映像を視聴するか否かを示す情報を入力する。
再度自己ＰＲ要約映像を視聴する場合、ステップＳＩ４０６で前記ステップＳＩ４０２の採用条件と同じであるかを示す情報を入力し、同じでない場合、ステップＳＩ４０２の採用条件を入力しなおす。ステップＳＩ４０２の採用条件と同じ場合、ステップＳＩ４０７で自己ＰＲ要約条件は同じであるかを示す情報を入力し、同じでない場合ステップＳＩ４０３の自己ＰＲ映像要約条件を入力しなおす。
【００７４】
たとえば、３０秒の自己ＰＲ要約映像を視聴し、求職者の採用に前向きに検討する場合などに、２度目以降は６０秒の自己ＰＲ要約映像を視聴するなどの利用法がある。ステップＳＩ４０５で再度自己ＰＲ要約映像の視聴を希望しない場合、ステップＳＩ４０８で自己ＰＲ映像を視聴するかを示す情報を入力し、要約でなくもとの自己ＰＲ映像を視聴する場合、ステップＳＩ４０９で自己ＰＲ映像を視聴し、ステップＳＩ４１０で再度自己ＰＲ映像を視聴するかを示す情報を入力し、再度視聴する場合は、ステップＳＩ４０９へ、視聴しない場合は、ステップＳＩ４１１で求職者と面接するか否かを示す情報を入力する。
【００７５】
ステップＳＩ４０８で自己ＰＲ映像の視聴を希望しない場合も同様にステップＳＩ４１１で求職者と面接するか否かを示す情報を入力する。面接を希望する場合、ステップＳＩ４１２で求職者の端末に面接希望を示す情報を送信する。ここで面接とは、たとえば、求職者連絡部３０９（図６参照）から求職者に連絡し、場所を設定して採用者と求職者が面接してもよく、また、採用者から直接求職者へ連絡して面接場所を決定してもよい。また、直接面接を行わず、インターネット電話などのネット家電装置を用いて面接を行ってもよい。
【００７６】
ステップＳＩ４１１で求職者との面接を希望しない場合、ステップＳＩ４１３で求職者を採用するかを示す情報を入力する。採用を決定する場合もステップＳＩ４１２で求職者の端末へ決定情報を送信して連絡する。採用を決定しない場合、ステップＳＩ４１４で採用を保留することを示す情報を入力する。後程検討するか選択する。後ほど選択することを示す信号を入力した場合、ステップＳＩ４１５で求職者を採用することを示す情報を保持し、保留しないことを示す情報を入力した場合、求職者端末に不採用を示す情報を送信する。ステップＳＩ４１６で採用保留者以外、まだ自己ＰＲ要約映像を一度も見ていない求職者の自己ＰＲ要約映像を視聴するかを示す情報を入力する。ステップＳＩ４１２で求職者の端末に面接希望を示す情報を送信した後同様にステップＳＩ４１６で求職者の自己ＰＲ要約映像を視聴するかを示す情報を入力する。また、ステップＳＩ４１５で求職者を採用保留にした後も同様にステップＳＩ４１６で自己ＰＲ要約映像を視聴するかを示す情報を入力する。
【００７７】
別の求職者の視聴を希望する場合、ステップＳＩ４０６を実行し、以降のステップを繰り返す。ステップＳＩ４１６で別の求職者の視聴を希望しない情報を入力する場合、ステップＳＩ４１７で保留した求職者の自己ＰＲ要約映像を視聴するかを示す情報を入力しステップＳＩ４０６の選択を行う。前記を繰り返すことにより、採用者の希望する求職者を決定し、ステップＳＩ４１８で終了する。
図１４は課金部５００を構成するコンピュータで実行される課金のための手順を示す。課金手順は求職者登録料課金ステップＳＩ５０１と、利用者登録料課金ステップＳＩ５０２と、自己ＰＲ要約映像視聴料課金ステップＳＩ５０３と、自己ＰＲ映像視聴料課金ステップＳＩ５０４と、仲介料課金ステップＳＩ５０５とからなり、前記いずれか一つでも当てはまれば成立する。
【００７８】
求職者登録料部課金ステップＳＩ５０１では求職者が求職のためにデータセンタに登録する際に登録料金を課金処理する。つまり、この課金処理は例えば求職者金融口座における金融残高から登録料金相当分を控除し、データ管理者の金融口座における金融残高に登録処理手数料相当分を加算する手順で実行される。
登録料としては例えば年間登録料３０００円などと設定し、その期間中求職者はデータセンタ３００に個人情報、自己ＰＲ映像などを登録することができる。採用者登録料課金ステップＳＩ５０２では採用者が採用のためにデータセンタに登録する料金を課金処理する。この課金処理は、例えば採用者金融口座における金融残高から登録のための料金相当分を控除し、データ管理者の金融口座における金融残高に登録処理手数料相当分を加算する手順で実行される。
【００７９】
この場合の登録料としては例えば、年間登録料１００００円などと設定し、その期間中採用者はデータセンタ３００に登録してある求職者情報と、求職者の自己ＰＲ映像を視聴することができる。
自己ＰＲ要約映像視聴料課金ステップＳＩ５０３では採用者が視聴した求職者人数や、自己ＰＲ要約映像の視聴時間に応じて課金処理する。この課金処理も、例えば採用者金融口座における金融残高から視聴人数又は視聴時間に対応した利用料金相当分を控除し、データ管理者の金融口座における金融残高に利用手数料相当分を加算する手順で実行される。利用料金としては例えば、（１００円／求職者）という料金を設定してもよい。あるいは、（１０００円／１時間）と設定してもよい。また、求職者の自己ＰＲ要約映像を採用者が視聴する毎にその視聴料金を例えば（１００円／採用者）と設定し、求職者の金融口座からその視聴料金相当分を控除してもよい。
【００８０】
自己ＰＲ映像視聴料課金ステップＳＩ５０４では採用者が自己ＰＲ映像を視聴した場合、採用者が視聴した求職者人数や、自己ＰＲ映像の視聴時間に応じた利用料金相当分を採用者に課金処理する。この課金処理は採用者の金融口座の残高データから利用料金相当分データを控除し、その利用料金相当分データをデータ管理者の金融口座の残高に加算する手順で実行する。
自己ＰＲ映像の利用料金としては例えば（１０００円／求職者）と設定することができる。または（１０００円／１時間）に設定してもよい。また、自己ＰＲ要約映像を採用者が視聴する際に（１０００円／採用者）と設定し、この場合には自己ＰＲ要約映像を視聴された求職者に視聴した採用者の人数分の利用料金を課金してもよい。
【００８１】
仲介料課金ステップＳＩ５０５では図１３に示したステップＳＩ４１２の求職者へ連絡する場合に課金し、たとえば、面接１回につき１０００円を採用者に課金するなどする。あるいは、採用が決定する毎に１００００円を採用者に課金する、または１００００円を求職者への課金処理を行う形態であってもよい。
この結果から明らかな様に、従来の技術に比べて、音声要約技術を用いることで、自己ＰＲ映像の要約が可能となる改善があった。また、採用者の希望する時間やシーン数で自己ＰＲ要約映像を視聴することが可能となり、採用者の採用活動の稼動を軽減する改善があった。また、採用者は希望する求職者の映像を任意に視聴することが可能となり、求職者の映像を採用者に強く印象付けることが可能となり、採用活動の効率化が出来る改善があった。また、求職者は自己ＰＲ映像を採用者に視聴され、テキスト情報以外に自己アピールを行うことが可能となり、テキスト情報に依存しない求職活動が出来る改善があった。
【００８２】
以上説明したこの発明による要約情報提供方法はデータセンタ３００を構成する計算機により本発明の要約情報提供プログラムを実行して実現できる。ここで当該プログラムを通信回線を介してダウンロードしたり、ＣＤ−ＲＯＭや磁気ディスク等の記憶媒体からＣＰＵのような処理手段にインストールして実行される。
【００８３】
【発明の効果】
この結果から明らかな様に、従来の技術に比べて、音声要約技術を用いることで、自己ＰＲ映像の要約の自動化が可能となる効果がある。また、採用者の希望する時間やシーン数で自己ＰＲ要約映像を視聴することが可能となり、採用者の採用活動の稼動を軽減する効果がある。また、採用者は希望する求職者の映像を任意に視聴することが可能となり、求職者の映像を採用者に強く印象付けることが可能となり、採用活動の効率化が行える効果がある。また、求職者は自己ＰＲ映像を採用者に視聴され、テキスト情報以外に自己アピールを行うことが可能となり、テキスト情報に依存しない求職活動が出来る効果がある。
【図面の簡単な説明】
【図１】この発明による要約情報配信システムの基本構成を説明するためのブロック図。
【図２】図１に示した求職者登録部の構成を説明するためのブロック図。
【図３】図２に示した求職者登録部で行なわれる個人情報を登録する手順を説明するための流れ図。
【図４】図２に示した映像撮影部のデータ取得状況を説明するための図。
【図５】図２に示した求職者が自己ＰＲ映像を撮影する際の、ＰＲする項目の例を示す図。
【図６】図１に示したデータセンタの内部の構成を説明するためのブロック図。
【図７】図６に示した採用条件入力部に採用条件を入力する例を示す図。
【図８】図６に示した自己ＰＲ音声映像要約部の構成の一例を説明するためのブロック図。
【図９】図８に示した要約条件入力部に要約条件を入力する例を示す図。
【図１０】図８に示した音声映像要約部の動作を説明するための流れ図。
【図１１】図８に示した映像編集部の動作を説明するための流れ図。
【図１２】図１１に示した自己ＰＲ要約音声映像情報に、自己ＰＲ項目のテロップを入力する例を示す流れ図。
【図１３】図１に示した採用者発掘部において採用者が採用を決定するまでの手順の例を示す流れ図。
【図１４】図１に示した課金部において、課金の手順の例を示す流れ図。
【図１５】先に提案した音声要約方法を説明するためのフローチャート。
【図１６】先に提案した音声段落の抽出方法を説明するためのフローチャート。
【図１７】音声段落と音声小段落の関係を説明するための図。
【図１８】図１５に示したステップＳ２における入力音声小段落の発話状態を判定する方法の例を示すフローチャート。
【図１９】先に提案した音声要約方法に用いられるコードブックを作成する手順の例を示すフローチャート。
【図２０】この発明において用いられるコードブックの記憶例を示す例。
【図２１】発話状態尤度計算を説明するための波形図。
【図２２】先に提案した音声強調状態判定装置及び音声要約装置の一実施例を説明するためのブロック図。
【図２３】要約率を自由に変更することができる要約方法を説明するためのフローチャート。
【図２４】音声の要約に用いる音声小段落の抽出動作と各音声小段落の強調確率算出動作、音声小段落平静確率抽出動作を説明するためのフローチャート。
【図２５】音声要約装置に用いる音声強調確率テーブルの構成を説明するための図。
【図２６】要約率を自由に変更することができる音声要約装置の一例を説明するためのブロック図。
【符号の説明】
１００求職者登録部
２００ネットワーク
３００データセンタ
３０１求職者データ入力部
３０２求職者個人情報データベース
３０３自己ＰＲ音声映像データベース
３０４採用条件入力部
３０５検索部
３０６自己ＰＲ音声映像要約部
３０７自己ＰＲ音声映像配信部
３０８採用者評価受信部
３０９連絡部
４００採用者発掘部
５００課金部

Claims

映像付き音声について、フレーム毎の音声特徴量の組に基づき音声の強調状態を判定し、要約区間を判定する要約区間判定方法であって、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出ステップと、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出ステップと、
前記強調状態となる尤度が所定の値よりも大きい前記音声信号区間を要約区間と判定する要約区間判定ステップと、
要約区間と判定した前記音声信号区間の開始時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の開始位置とする、または要約区間と判定した前記音声信号区間の終了時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の終了位置とする要約区間変更ステップと、
を有する要約区間判定方法。
項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求め
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記強調状態となる尤度が所定の尤度よりも大きい前記音声信号区間を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。
項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が平静状態となる尤度を算出し、
前記強調状態となる尤度と前記平静状態となる尤度とを比較（尤度に重みを付けた比較も含む）して、前記強調状態となる尤度の方が大きい前記音声信号区間を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。
項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が平静状態となる尤度を算出し、
強調状態となる尤度の前記平静状態となる尤度に対する比を前記音声信号区間ごとに算出し、
前記比の降順に対応する前記音声信号区間の時間を累積して要約区間の時間の総和を算出することにより、前記要約区間の時間の総和が所定の要約時間となる前記音声信号区間を要約区間と決定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。
項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、
前記音声信号の所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落の後半部に含まれる１フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
各音声小段落の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が強調状態となる尤度を算出し、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が平静状態となる尤度を算出し、
各音声小段落について前記強調状態となる尤度と前記平静状態となる尤度とを比較（尤度に重みを付けた比較も含む）して、前記強調状態となる尤度の方が大きい音声小段落を含む音声段落を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。
項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、
前記音声信号の所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落の後半部に含まれる１フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
各音声小段落の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が強調状態となる尤度を算出し、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が平静状態となる尤度を算出し、
強調状態となる尤度の前記平静状態となる尤度に対する比を音声小段落ごとに算出し、
前記比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出することにより、前記要約区間の時間の総和が所定の要約時間となる音声小段落を要約区間と決定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。
映像付き音声について、フレーム毎の音声特徴量の組に基づき音声の強調状態を判定し、要約区間を判定する要約区間判定装置であって、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出部と、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出部と、
前記強調状態となる尤度が所定の値よりも大きい前記音声信号区間を要約区間と判定する要約区間判定部と、
要約区間と判定した前記音声信号区間の開始時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の開始位置とする、または要約区間と判定した前記音声信号区間の終了時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の終了位置とする要約区間変更部と、
を具備していることを特徴とする要約区間判定装置。
項目別に映像信号と同時に収録された音声信号と、該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうち少なくともいずれか１つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出部と、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出部と、
前記強調状態となる尤度が所定の尤度より大きい前記音声信号区間を要約区間と判定する要約区間決定部と、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力する出力部と
を具備していることを特徴とする要約情報提供装置。
コンピュータが読取り可能な符号によって記述され、前記請求項１乃至６記載の方法の何れかをコンピュータに実行させること
を特徴とするプログラム。