JP3803301B2 - 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム - Google Patents
要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム Download PDFInfo
- Publication number
- JP3803301B2 JP3803301B2 JP2002058447A JP2002058447A JP3803301B2 JP 3803301 B2 JP3803301 B2 JP 3803301B2 JP 2002058447 A JP2002058447 A JP 2002058447A JP 2002058447 A JP2002058447 A JP 2002058447A JP 3803301 B2 JP3803301 B2 JP 3803301B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- audio
- paragraph
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Description
【発明の属する技術分野】
この発明は映像付音声の内容の要部を決定する要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラムに関し、例えば求職者の自己PR映像を自動的に生成し、採用活動の負担を軽減する人材発掘システムに応用したものである。
【0002】
【従来の技術】
従来の技術では、公共職業安定所等の職業斡旋所などに設置され、求人、求職者が独自に各種情報の伝達、交換をおこない、面接予約、テレビ電話を利用した簡易面接を援助する職業紹介システムがあった。たとえば、日本国特開平11−143957号公報などに示されている。
また、応募者と企業とをネットワークを介して接続し、応募者と企業に関する情報をインタラクティブに管理するシステムがあった。たとえば、日本国特開2001−202407公報などに示されている。
【0003】
また、保有資格、実務経験年数、希望職種、履歴情報などから派遣労働者の適正や性能を診断する派遣労働者の登録システムがあった。たとえば、日本国特開2001−229278公報などに示されている。
また、結婚紹介などで年齢、身長、体重、兄弟関係、学歴、職業、収入、趣味、特技などの文字データと、必要に応じて、自己紹介音声、映像をもちいて仲介者を必要としないコンピュータネットワークがあった。たとえば、日本国特開平6−19926号公報などに示されている。
【0004】
また、入力項目に応じて、スキル、担当業務内容などを自動的に抽出し、また、自己PRポイントを自動的に抽出し、求職者が個人の職務経歴を入力すると、企業側が求めているサマリーを作成するなどの求職求人情報システムがあった。たとえば、日本国特開2001−142939号公報などに示されている。
また、オーディションなどで自己の要旨、趣味範囲、思考、表現力、歌唱力などの才能を含むアピール情報に関する応募を簡易に行い、発掘側が検索するシステムがあった。たとえば、日本国特開2000−305980公報などに示されている。
【0005】
【発明が解決しようとする課題】
例えば採用者が採用活動を行うには、採用者が求職者の書類審査を行い、求職者を1回以上面接して採用可否を決定している。面接後、保存されるのは書類だけで求職者の印象は採用者の記憶にしか頼ることが出来ない。また、映像などに記録されていた場合においても、採用者の映像をすべて見ることは時間を浪費するため、現実的ではない。書類による第一次選考などの方法もあるが、時間的浪費を軽減するためのものであり、求職者本人に会うことなしに、あるいは求職者の映像を見ることなしに求職者が採用者の希望に見合わないかは判断不可能である。
【0006】
日本国特開2001−142939公報では、入力項目に応じて、スキル、担当業務内容などを自動抽出し、自己PRポイントを自動抽出し、求職者が個人の職務履歴を入力すると、企業側が求めているサマリーを作成するなどの処理を施しているが、これらはテキスト情報から導かれたものであり、たとえば自己PRをテキスト情報だけで判断することは不可能である。また、日本国特開2001−229278公報では、派遣労働者の適正や、能力を判断しているが、適正や能力だけで採用するわけではなく、これらのみで採用可能であれば面接などは必要がない。テキスト情報に依存した採用システムは前記第一次選考の簡易化にすぎず、有用な方法とは言えない。
【0007】
日本国特開平6−19926号公報ではテキストベースの自己データに加えて、写真、映像などの登録も行い、また、日本国特開2000−305980公報では、オーディションなどにたいして、自己の容姿などを画像や映像なども用いておこなえるシステムを開発しているが、これらは最終的には映録を再生する時間が必要であり、要旨を理解するには早送りなどの機能を用いても限界がある。
特開2001−202407公報では、求職者と採用者を、ネットワークを介して接続し情報をインタラクティブに管理しているが採用の負担が軽減する構成にはなっていない。また、特開平11−143957号公報ではTV電話などにより、簡易的な面接も実現しているが、ネットワークを介しているだけであり、面接にかかる場所の移動以外に採用者の採用活動負担の軽減にはなっていない。
【0008】
本発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、例えば求職者のように個人情報を提供する情報提供者が提供した映像を効率的に要約することで、多数の情報を短時間で閲覧し、多数の情報の中から目的に合致した情報を検索する作業量の激減を図ることができる要約情報提供方法、要約情報提供装置、要約情報提供プログラムを提供しようとするものである。
【0009】
【課題を解決するための手段】
前記問題点を解決するために、情報提供者が提供する音声付映像を要約する要約情報提供方法を提供することを本発明の最も主要な特徴とするものである。
この発明では項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳とを用い、希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、前記強調状態での出現確率に基づいて強調状態となる確率を算出し、前記強調状態となる確率が所定の確率よりも大きい音声信号区間を要約区間と判定し、前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を出力する要約情報提供方法を提案する。
【0010】
この発明では更に前記要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率に対応して平静状態での出現確率が格納され、前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、前記平静状態での出現確率に基づいて平静状態となる確率を算出し、前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間ごとに算出し、前記確率比の降順に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、前記要約区間の時間の総和が所定の要約時間となる音声信号区間を要約区間と決定する要約情報提供方法を提案する。
【0011】
この発明では更に前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、音声小段落に含まれる有声区間の平均パワーが該音声小段落内の平均パワーの所定の定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、前記音声信号区間は音声段落ごとに定められたものであり、前記要約時間を音声段落ごとに累積して求め、前記強調状態の確率又は前記確率比の降順に音声段落ごとに前記要約区間の映像信号と音声信号を出力する要約情報提供方法を提案する。
【0012】
この発明では更に項目別に映像信号と同時に収録された音声信号と、該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳とを用い、希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、前記強調状態となる確率が所定の確率より大きい音声信号区間を要約区間と判定する要約区間決定部と、前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を出力する出力部とを具備している要約情報提供装置を提案する。
【0013】
この発明では更にコンピュータが読取り可能な符号によって記述され、前記の要約情報提供方法の何れかをコンピュータ上で実行する要約情報提供プログラムを提案する。
[作用]
この発明によれば音声要約手段は、情報提供者が提供する映像の音声を分析し、音声の重要部分(強調区間)を抽出している。そのため、音声の重要部分の映像をつなげて再生すると、映像の要旨や情報提供者の印象を強く伝えることが可能となり、本発明の目的である、提供された情報の要約を行うことが出来ることになる。
【0014】
データセンタは、任意の時間やシーン数で、情報提供者である話者の映像を要約する。そのため、情報利用者(この要約情報提供方法を利用して例えば求人活動等を行う利用者)の希望する時間やシーン数で要約映像を視聴することが可能となり、本発明の目的である、採用者の採用活動の稼動を軽減することが出来ることになる。
情報利用者は希望する情報提供者の映像を原映像より短かい時間で要部に絞って視聴する。そのため、情報提供者の映像を情報利用者に強く印象付けることが可能となり、本発明の目的である検索活動の効率化が出来ることになる。
【0015】
情報提供者は自己PR映像を情報利用者に視聴される。そのため、情報提供者がテキスト情報以外に情報利用者に自己アピールを行うことが可能となり、本発明の目的であるテキスト情報に依存しない検索活動が出来ることになる。
【0016】
【発明の実施の形態】
ここで、この発明で用いられる音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法について、説明する。
図15に先に提案した音声要約方法の実施形態の基本手順を示す。ステップS1で入力音声信号を分析して音声特徴量を求める。ステップS2で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップS3で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップS4で要約音声を作成し、要約音声を得る。
【0017】
以下に、自然な話し言葉や会話音声を、要約に適用する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数(f0)、パワー(p)、音声の動的特徴量の時間変化特性(d)、ポーズ時間長(無音区間)(ps)を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」(古井貞煕、近代科学社、1998)、「音声符号化」(守谷健弘、電子情報通信学会、1998)、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」(嵯峨山茂樹、博士論文、1998)などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第2976998号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にLPCスペクトラム係数C1(t)、…Ck(t)を抽出して次式のような動的特徴量d(ダイナミックメジャー)を求める。d(t)=Σi=1k[Σf=t-f0t+f0[f×Ci(t)]/(Σf=t-f0t+f0f2)2ここで、f0は前後の音声区間フレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)、kはLPCスペクトラムの次数、i=1、2、…kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【0018】
実施例では例えば100msを1フレームとし、シフトを50msとする。1フレーム毎の平均の基本周波数を求める(f0´)。パワーについても同様に1フレーム毎の平均パワー(p´)を求める。更に現フレームのf0´と±iフレーム前後のf0´との差分をとり、±Δf0´i(Δ成分)とする。パワーについても同様に現フレームのp´と±iフレーム前後のp´との差分±Δp´i(Δ成分)を求める。f0´、±Δf0´i、p´、±Δp´iを規格化する。この規格は例えばf0´、±Δf0´iをそれぞれ、音声波形全体の平均基本周波数で割り規格化する。これら規格化された値をf0″、±f0″iと表す。p´、±Δp´iについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、音声段落ごとの平均パワーで割ってもよい。これら規格化された値をp″、±Δp″iと表す。iの値は例えばi=4とする。現フレームの前後±T1msの、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数dpを算出する。これと、現フレームの開始時刻の、T2ms前の時刻を区間に含むフレームのdpとのΔ成分(−Δdp)を求める。前記±T1msのdpと、現フレームの終了時刻の、T3ms後の時刻を区間に含むフレームのdpとのΔ成分(+Δdp)を求める。これら、T1、T2、T3の値は例えばT1=T2=T3=450msとする。フレームの前後の無音区間の時間長を±psとする。ステップS1ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【0019】
ステップS2における入力音声の音声小段落と、音声段落を抽出する方法の例を図16に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップS201で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声/無声の決定は、周期性/非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声/無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期1/f0(基本周波数f0)の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【0020】
ステップS202で、有声区間を囲む無音区間の時間がそれぞれt秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このtは例えばt=400msとする。ステップS203で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値BAの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
【0021】
図17に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がt秒の条件で、抽出する。図17では、音声小段落j−1、j、j+1について示している。ここで音声小段落jは、n個の有声区間から構成され、平均パワーをPjとする。有声区間の典型的な例として、音声小段落jに含まれる、有声区間vの平均パワーはpvである。音声段落kは、音声小段落jと音声小段落を構成する後半部分の有声区間のパワーから抽出する。i=n−αからnまでの有声区間の平均パワーpiの平均が音声小段落jの平均パワーPjより小さいとき、即ち、
Σpi/(α+1)<βPj 式(1)
を満たす時、音声小段落jが音声段落kの末尾音声小段落であるとする。ただし、Σはi=n−αからnまでである。式(1)のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは3、βは0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【0022】
図15中のステップS3における音声小段落発話状態判定方法の例を図18に示す。ステップS301で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも2つの量子化音声特徴量(コード)が格納された符号帳(コードブック)を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪(距離)を最小にする量子化音声特徴量を特定することが常套である。
【0023】
図19に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする(S501)。
例えば、被験者が発話の中で強調状態とする理由として、
(a)声が大きく、名詞や接続詞を伸ばすように発話する
(b)話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
(c)声を大きく高くして重要な名詞等を強調する時
(d)高音であるが声はそれほど大きくない
(e)苦笑いしながら、焦りから本音をごまかすような時
(f)周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
(g)ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
(h)声が大きく高く、割り込んで発話するという主張、相手より大きな声で
(i)大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時(例えば声が小さくボソボソ、ヒソヒソという口調)を挙げた。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
【0024】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは音声付の楽曲において、音声から強調状態を特定しようとした場合に、強調と感じる理由として、
(a)声が大きく、かつ声が高い
(b)声が力強い
(c)声が高く、かつアクセントが強い
(d)声が高く、声質が変化する
(e)声を伸長させ、かつ声が大きい
(f)声が大きく、かつ、声が高く、アクセントが強い
(g)声が大きく、かつ、声が高く、叫んでいる
(h)声が高く、アクセントが変化する
(i)声を伸長させ、かつ、声が大きく、語尾が高い
(j)声が高く、かつ、声を伸長させる
(k)声を伸長させ、かつ、叫び、声が高い
(l)語尾上がり力強い
(m)ゆっくり強め
(n)曲調が不規則
(o)曲調が不規則、かつ、声が高いまた、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる理由として、
(a)強調部分全体のパワー増大
(b)音の高低差が大きい
(c)パワーが増大する
(d)楽器の数が変化する
(e)曲調、テンポが変化する
等である。
【0025】
これらを基にコードブックを作成しておくことにより、発話に限らず音楽の要約も行うことができることになる。
平静状態と強調状態の各ラベル区間について、図15中のステップS1と同様に、音声特徴量を抽出し(S502)、パラメータを選択する(S503)。平静状態と強調状態のラベル区間の、前記パラメータを用いて、LBGアルゴリズムでコードブックを作成する(S504)。LBGアルゴリズムについては、例えば、(Y.Linde,A.Buzo and R.M.Gray,“Analgorithm for vector quantizer design,”IEEE Trans.Commun.,vol.Com−28,pp.84−95,1980)がある。コードブックサイズは2のn乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【0026】
図18中のステップS301で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード(量子化された音声特徴量)を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度(らしさ)を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード(量子化音声特徴量)の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた1つの区間(ラベル区間)の音声特徴量のコード(フレーム毎に得られる)が、時系列でCi、Cj、Ck、…Cnであるとき、ラベル区間αが強調状態となる確率をPα(e)、平静状態となる確率をPα(n)とし、
Pα(e)=Pemp(Ci)Pemp(Cj|Ci)…Pemp(Cn|Ci…Cn−1)=Pemp(Ci)ΠPemp(Cx|Ci…Cx−1)
Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)…Pnrm(Cn|Ci…Cn−1)=Pemp(Ci)ΠPnrm(Cx|Ci…Cx−1)
となる。ただし、Pemp(Cx|Ci…Cx−1)はコード列Ci…Cx−1の次にCxが強調状態となる条件付確率、Pnrm(Cx|Ci…Cx−1)は同様にCi…Cx−1に対しCxが平静状態となる確率である。ただし、Πはx=i+1からnまでの積である。またPemp(Ci)は学習音声についてフレームで量子化し、これらコード中のCiが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数(フレーム数)で割り算した値であり、Pnrm(Ci)はCiが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【0027】
このラベル区間αの各状態確率を簡単にするために、この例ではN−gramモデル(N<n)を用いて、
Pα(e)=Pemp(Cn|Cn−N+1…Cn−1)
Pα(n)=Pnrm(Cn|Cn−N+1…Cn−1)
とする。つまりCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが強調状態として得られる確率をPα(e)とし、同様にN−gramの確率値をより低次のM−gram(N≧M)の確率値と線形に補間する線形補間法を適応することが好ましい。例えばCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが平静状態として得られる確率をPα(n)とする。このようなPα(e)、Pα(n)の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次(即ちコード列の長い)の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばN=3のtrigram、N=2のbigram、N=1のunigramを用いて線形補間法を施す。N−gram、線形補間法、trigramについては、例えば、「音声言語処理」(北 研二、中村 哲、永田昌明、森北出版、1996、29頁)などに述べられている。即ち、
N=3(trigram):Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)
N=2(bigram):Pemp(Cn|Cn−1)、Pnrm(Cn|Cn−1)
N=1(unigram):Pemp(Cn)、Pnrm(Cn)
であり、これら3つの強調状態でのCnの出現確率、また3つの平静状態でのCnの出現確率をそれぞれ用いて次式により、Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)を計算することにする。
Pemp(Cn|Cn−2Cn−1)=λemp1Pemp(Cn|Cn−2Cn−1)+λemp2Pemp(Cn|Cn−1)+λemp3Pemp(Cn)
式(2)
Pnrm(Cn|Cn−2Cn−1)=λnrmlPnrm(Cn|Cn−2Cn−1)+λnrm2Pnrm(Cn|Cn−1)+λnrm3Pnrm(Cn)
式(3)
Trigramの学習データをNとしたとき、すなわち、コードが時系列でC1、C2、...CNが得られたとき、λemp1、λemp2、λemp3の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λemp1=1/NΣ(λemp1Pemp(Cn|Cn−2C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp2=1/NΣ(λemp2Pemp(Cn|C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp3=1/NΣ(λemp3Pemp(Cn)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
ただし、Σはn=1からNまでの和である。以下同様にしてλnrm1、λnrm2、λnrm3も求められる。
【0028】
この例では、ラベル区間αがフレーム数Nαで得たコードがCi1、Ci2、…、CiNαのとき、このラベル区間αが強調状態となる確率Pα(e)、平静状態となる確率Pα(n)は、
Pα(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNα|Ci(Nα−1)Ci(Nα−2)) 式(4)
Pα(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNα|Ci(Nα−1)Ci(Nα−2)) 式(5)
となる。この計算ができるように前記のtrigram、unigram、bigramを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【0029】
例えば図10に示すようにコードブックには各コードC1、C2、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図18中のステップS302では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図21に実施例の模式図を示す。時刻tから始まる音声小段落のうち、第4フレームまでを(1)〜(4)で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとフレーム長の方を長くした。(1)フレーム番号f、時刻t〜t+100でコードCiが、(2)フレーム番号f+1、時刻t+50〜t+150でコードCjが、(3)フレーム番号f+2、時刻t+100〜t+200でコードCkが、(4)フレーム番号f+3、時刻t+150〜t+250でコードClが得られ、つまりフレーム順にコードがCi、Cj、Ck、Clであるとき、フレーム番号f+2以上のフレームでtrigramが計算できる。音声小段落sが強調状態となる確率をPs(e)、平静状態となる確率をPs(n)とすると第4フレームまでの確率はそれぞれ、
Ps(e)=Pemp(Ck|CiCj)Pemp(Cl|CjCk)
式(6)
Ps(n)=Pnrm(Ck|CiCj)Pnrm(Cl|CjCk)
式(7)
となる。ただし、この例では、コードブックからCk、Clの強調状態及び平静状態の各単独出現確率を求め、またCjの次にCkが強調状態及び平静状態で各出現する条件付確率、更にCkがCi、Cjの次に、ClがCj、Ckの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。
Pemp(Ck|CiCj)=λemp1Pemp(Ck|CiCj)+λemp2Pemp(Ck|Cj)+λemp3Pemp(Ck) 式(8)
Pemp(Cl|CjCk)=λemp1Pemp(Cl|CjCk)+λemp2Pemp(Cl|Ck)+λemp3Pemp(Cl) 式(9)
Pnrm(Ck|CiCj)=λnrm1Pnrm(Ck|CiCj)+λnrm2Pnrm(Ck|Cj)+λnrm3Pnrm(Ck) 式(10)
Pnrm(Cl|CjCk)=λnrm1Pnrm(Cl|CjCk)+λnrm2Pnrm(Cl|Ck)+λnrm3Pnrm(Cl) 式(11)
上記(8)〜(11)式を用いて(6)式と(7)式で示される第4フレームまでの強調状態となる確率Ps(e)と、平静状態となる確率Ps(n)が求まる。ここで、Pemp(Ck|CiCj)、Pnrm(Ck|CiCj)はフレーム番号f+2において計算できる。
【0030】
この例では、音声小段落sがフレーム数Nsで得たコードがCi1、Ci2、…、CiNsのとき、この音声小段落sが強調状態になる確率Ps(e)と平静状態になる確率Ps(n)を次式により計算する。
Ps(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNs|Ci(Ns−1)Ci(Ns−2))
Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNs|Ci(Ns−1)Ci(Ns−2))
この例ではこれらの確率が、Ps(e)>Ps(n)であれば、その音声小段落Sは強調状態、Ps(n)>Ps(e)であれば平静状態とする。
【0031】
図22は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部11に音声強調状態が判定されるべき、又は音声の要約が検出されるべき入力音声(入力音声信号)が入力される。入力部11には必要に応じて入力音声信号をディジタル信号に変換する機能も含まれる。ディジタル化された音声信号は必要に応じて記憶部12に格納される。音声特徴量抽出部13で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部14で各フレームの音声特徴量がコードブック15を参照して量子化され、量子化された音声特徴量は強調確率計算部16と平静確率計算部17に送り込まれる。コードブック15は例えば図20に示したようなものである。
【0032】
強調確率計算部16によりその量子化された音声特徴量の強調状態での出現確率が、コードブック15に格納されている対応する確率を用いて、例えば式(8)又は(9)により計算される。同様に平静確率計算部17により、前記量子化された音声特徴量の平静状態での出現確率がコードブック15に格納されている対応する確率を用いて、例えば式(10)又は(11)により計算される。強調確率計算部16及び平静確率計算部17で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部12に格納する。
【0033】
これら各部の制御は制御部19の制御のもとに順次行われる。
音声要約装置の実施形態は、図22中に実線ブロックに対し、破線ブロックが付加される。つまり記憶部12に格納されている各フレームの音声特徴量が無音区間判定部21と有音区間判定部22に送り込まれ、無音区間判定部21により各フレーム毎に無音区間か否かが判定され、また有音区間判定部22により各フレーム毎に有声区間か否かが判定される。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部23に入力される。音声小段落判定部23はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定する。音声小段落判定部23の判定結果は記憶部12に書き込まれ、記憶部12に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部23の判定結果は末尾音声小段落判定部24に入力される。
【0034】
末尾音声小段落判定部24では、例えば図17を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部25に入力され、音声段落判定部25により2つの末尾音声小段落間の複数の音声小段落を含む部分を音声段落と判定する。この音声段落判定結果も記憶部12に書き込まれ、記憶部12に記憶している音声小段落番号列に音声段落列番号を付与する。
音声要約装置として動作する場合、強調確率計算部16及び平静確率計算部17では記憶部12から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(8)及び式(10)により計算される。強調状態判定部18ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部26では音声段落中の1つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部19により行われる。
【0035】
以上により音声で構成される音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できることが理解できよう。
以下では上述した各方法を利用したこの発明による音声処理方法、音声処理装置及び音声処理プログラムに関わる実施の形態を説明する。
図23にこの発明の音声処理方法の実施の形態の基本手順を示す。この実施例ではステップS11で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【0036】
ステップS12では要約条件入力ステップS12を実行する。この要約条件入力ステップS12では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップS13では抽出条件の変更を繰り返す動作を実行し、ステップS12の要約条件入力ステップS12で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【0037】
ステップS14で要約抽出ステップを実行する。この要約抽出ステップS14では抽出条件変更ステップS13で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ15では要約再生処理を実行し、要約抽出ステップS14で抽出した音声段落列を再生する。
図24は図23に示した音声強調確率算出ステップの詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
【0038】
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図17で説明したように、1つ以上の音声小段落で構成され、意味を理解できる単位である。
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図20で説明したコードブックと前記した式(8)、(10)等を利用して各音声小段落が強調状態となる確率(以下強調確率と称す)Ps(e)と、平静状態となる確率(以下平静確率と称す)Ps(n)とを求める。
【0039】
ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図25に記憶手段に格納した音声強調確率テーブルの一例を示す。図25に示すF1、F2、F3…は音声小段落毎に求めた音声小段落強調確率Ps(e)と、音声小段落平静確率Ps(n)を記録した小段落確率記憶部を示す。これらの小段落確率記憶部F1、F2、F3…には各音声小段落Sに付された音声小段落番号iと、開始時刻(言語列の先頭から計時した時刻)終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数fn等が格納される。
【0040】
要約条件入力ステップS12で入力する条件としては要約すべきコンテンツの全長を1/X(Xは正の整数)の時間に要約することを示す要約率X(請求項1記載の要約率を指す)、あるいは要約時間tを入力する。
この要約条件の設定に対し、抽出条件変更ステップS13では初期値として重み係数WをW=1に設定し、この重み係数を要約抽出ステップS14に入力する。
要約抽出ステップS14は重み係数W=1として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ps(e)と平静確率Ps(e)とを比較し、
W・Ps(e)>Ps(n)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間MT(分)を求める。
【0041】
抽出した音声段落列の総延長時間MT(分)と要約条件で決めた所定の要約時間YT(分)とを比較する。ここでMT≒YT(YTに対するMTの誤差が例えば±数%程度の範囲)であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間YTに対するコンテンツの要約した総延長時間MTとの誤差値が規定より大きく、その関係がMT>YTであれば抽出した音声段落列の総延長時間MT(分)が、要約条件で定めた要約時間YT(分)より長いと判定し、図23に示した抽出条件変更ステップS13を再実行させる。抽出条件変更ステップS13では重み係数がW=1で抽出した音声段落列の総延長時間MT(分)が要約条件で定めた要約時間YT(分)より「長い」とする判定結果を受けて強調確率Ps(e)に現在値より小さい重み付け係数W(請求項1記載の所定の係数の場合は現在値よりも大きくする)を乗算W・Ps(e)して重み付けを施す。重み係数Wとしては例えばW=1−0.001×K(Kはループ回数)で求める。
【0042】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ps(e)の配列に1回目のループではW=1−0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率W・Ps(e)と各音声小段落の平静確率Ps(n)とを比較し、W・Ps(e)>Ps(n)の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップS14では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間MT(分)を算出し、この総延長時間MT(分)と要約条件で定められる要約時間YT(分)とを比較する。比較の結果がMT≒YTであれば、その音声段落列を要約音声と決定し、再生する。
【0043】
1回目の重み付け処理の結果が依然としてMT>YTであれば抽出条件変更ステップを、2回目のループとして実行させる。このとき重み係数WはW=1−0.001×2で求める。全ての強調確率Ps(e)にW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Wの値を徐々に小さくするように抽出条件を変更していくことによりWPs(e)>Ps(n)の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすMT≒YTの状態を検出することができる。
【0044】
尚、上述では要約時間MTの収束条件としてMT≒YTとしたが、厳密にMT=YTに収束させることもできる。この場合には要約条件に例えば5秒不足している場合、あと1つの音声段落を加えると10秒超過してしまうが、音声段落から5秒のみ再生することで利用者の要約条件に一致させることができる。また、この5秒は強調と判定された音声小段落の付近の5秒でもよいし、音声段落の先頭から5秒でもよい。
また、上述した初期状態でMT<YTと判定された場合は重み係数Wを現在値よりも小さく例えばW=1−0.001×Kとして求め、この重み係数Wを平静確率Ps(n)の配列に乗算し、平静確率Ps(n)に重み付けを施せばよい。また、他の方法としては初期状態でMT>YTと判定された場合に重み係数を現在値より大きくW=1+0.001×Kとし、この重み係数Wを平静確率Ps(n)の配列に乗算してもよい。
【0045】
また、要約再生ステップS15では要約抽出ステップS14で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Wを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Wに各音声小段落を構成するフレームの数F乗してWFとして重み付けを行うことが望ましい。
【0046】
つまり、式(8)及び式(10)で算出する条件付の強調確率Ps(e)は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ps(n)も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ps(e)に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Wを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をFとすれば重み係数WはWFとなる。
【0047】
この結果、フレームの数Fに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Wを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数WをWFとする必要はない。
【0048】
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ps(e)又は平静確率Ps(n)に重み付けを施してPs(e)>Ps(n)を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ps(e)と平静確率Ps(n)に関してその確率比Ps(e)/Ps(n)を演算し、この確率比の降順に対応する音声信号区間(音声小段落)を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【0049】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ps(e)/Ps(n)の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ps(e)と平静確率Ps(n)を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ps(e)及び平静確率Ps(n)として用いることもできる。
【0050】
従って、この強調確率Ps(e)及び平静確率Ps(n)の算出方法を採る場合には重み付けに用いる重み付け係数Wはそのまま強調確率Ps(e)又は平静確率Ps(n)に乗算すればよい。
図26を用いて要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図22に示した音声強調状態要約装置の構成に要約条件入力部31と、音声強調確率テーブル32と、強調小段落抽出部33と、抽出条件変更部34と、要約区間仮判定部35と、この要約区間仮判定部35の内部に要約音声の総延長時間を求める総延長時間算出部35Aと、この総延長時間算出部35Aが算出した要約音声の総延長時間が要約条件入力部31で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部35Bと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部35Cを設けた構成とした点を特徴とするものである。
【0051】
入力音声は図21で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部16と平静確率計算部17でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部12に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この発明による音声処理装置では強調確率算出部16と平静確率算出部17は記憶部12に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ps(e)と平静確率Ps(n)とを求め、これら強調確率Ps(e)と平静確率Ps(n)を音声強調テーブル32に格納する。
【0052】
音声強調テーブル32には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部31に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を1/10に要約するか、或は時間で10分に要約するなどの入力方法が考えられる。ここで例えば1/10と入力した場合は要約時間算出部31Aはコンテンツの全長時間を1/10した時間を算出し、その算出した要約時間を要約区間仮判定部35の要約区間決定部35Bに送り込む。
【0053】
要約条件入力部31に要約条件が入力されたことを受けて制御部19は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル32から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部33に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ps(e)又は平静確率Ps(n)に確率比の逆数となる重み付け係数Wを乗算しW・Ps(e)>Ps(n)の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ps(e)/Ps(n)を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【0054】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数WをW=1として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)の確率比Ps(e)/Ps(n)の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばPs(e)/Ps(n)≧1である場合を強調状態と判定することが考えられる。
この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部33から要約区間仮判定部35に送り込む。要約区間仮判定部35では強調状態と判定した強調小段落番号を含む音声段落を記憶部12に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部35Aで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部35Bで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部35Cで保存し、再生する。この再生動作は強調小段落抽出部33で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【0055】
要約区間決定部35Bで要約条件を満たしていないと判定した場合は、要約区間決定部35Bから抽出条件変更部34に抽出条件の変更指令を出力し、抽出条件変更部34に抽出条件の変更を行わせる。抽出条件変更部34は抽出条件の変更を行い、その抽出条件を強調小段落抽出部33に入力する。強調小段落抽出部33は抽出条件変更部34から入力された抽出条件に従って再び音声強調確率テーブル32に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
【0056】
強調小段落抽出部33の抽出結果は再び要約区間仮判定部35に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部35Bで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部12から読み出されユーザ端末に配信される。
以上により音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できること及び音声の要約率を自由に変更して任意の長さの要約音声を得ることができることが理解できよう。
【0057】
尚、上述では要約区間の開始時刻及び終了時刻を要約区間と判定した音声段落列の開始時刻及び終了時刻として取り出すことを説明したが、映像付のコンテンツの場合は要約区間と判定した音声段落列の開始時刻と終了時刻に接近した映像信号のカット点を例えば特開平8−32924号公報記載の手段で検出し、このカット点(画面の切替わりに発生する信号を利用する)の時刻で要約区間の開始時刻及び終了時刻を規定する方法も考えられる。このように映像信号のカット点を要約区間の開始時刻及び終了時刻に利用した場合は、要約区間の切替わりが画像の切替わりに同期するため、視覚上で視認性が高まり要約の理解度を向上できる利点が得られる。
【0058】
以下では上述した各方法を利用したこの発明による要約情報提供方法、要約情報提供装置及びそのプログラムに関わる実施の形態を説明する。
[実施例1]
これより、実施例1として、たとえば、卒業予定の学生の採用や、派遣社員の採用、アルバイト・パート勤務採用などの人材発掘システムにこの発明による要約情報提供方法を適用した実施例を述べる。
図1に、この発明の実施例1を示す。この発明による要約情報提供装置は属性情報として応募者等の個人情報とその映像付音声信号を入力する求職者登録部100と、ネットワーク200と、データセンタ300と、このデータセンタ300の出力側に設けられた出力部309と、採用者発掘部400と、課金部500とによって構成される。求職者登録部100で求職者は求職者であることを登録する。登録データはネットワーク200を経由して、データセンタ300に送り込まれ、他の属性情報と共にデータベースに蓄積される。
【0059】
採用者発掘部400では希望属性情報として採用条件情報を入力し、希望属性情報を満足する属性情報をもつ応募者の映像付音声信号の要約部分をデータセンタ300から受信し、これを再生した映像乃至音声を採用者が視聴することによって求職者を選択する手がかりとする。
課金部500はデータセンタ300において採用者へのデータ提供、求職者からのデータ入力等の処理に伴い課金処理を行う。例えば、データセンタから各処理に応じた課金要求信号を受けて各利用者金融口座における金融残高から各処理に対する対価相当分を控除したり、データ管理者の金融口座における金融残高に利用手数料相当分を加算する。
【0060】
図2は求職者登録部100の構成の一例を示す。求職者登録部100は、個人情報登録部101、映像撮影部102、保存記録部103、データセンタ送信部104とから構成される。
個人情報登録部101で求職者個人の属性情報を入力する。入力に用いる端末はパーソナルコンピュータ、情報を入出力可能な家電製品、携帯電話のいずれでもよい。
図3は、個人情報登録画面の典型的な例である。たとえば、ステップSI101−1で求職者の名前を入力し、ステップSI101−2で年齢を入力し、ステップSI101−3で住所を入力し、ステップSI101−4で電話番号を入力し、ステップSI101−5で希望する職種を選択し、ステップSI101−6で希望就業日数/週を選択し、ステップSI101−7で就業形態を選択し、ステップSI101−8で希望年収を選択し、ステップSI101−9で学歴を入力し、ステップSI101−10で免許などを入力する。前記ステップSI101−1からステップSI101−10は全て選択式でもよく、記述入力式でもよい。
【0061】
図3で示した個人情報登録画面の登録内容は、任意であり、その内容に関しては後記するデータセンタ300の運営者が設定してもよく、また採用者発掘部400が設定してもよい。また、全て求職者の自由な表記にしてもよい。
図4は、図2に示した映像撮影部102では映像信号と音声信号を同時に撮影して求職者本人のPR画像として取得する。図4Aは撮影機102−1で、自己PRを録画する様子を示す。撮影機102−1は、市販のビデオカメラでも、パーソナルコンピュータや、携帯電話に付属した動画撮影可能なカメラでもよい。また、ディジタルで録画していても、アナログで録画していてもよく、ディジタル化されている場合、圧縮されているか否かはいずれでもよく、圧縮されていた場合、その圧縮形式はいずれのものでもよい。
【0062】
図4Bは求職者が撮影機102−1に向って自己PRを行なっている様子を示す。自己PRで使用する項目は、たとえば、学歴、職歴などは、後記するデータセンタ300の運用者が設定してもよく、採用者が設定してもよい。また、全て求職者の自由な表記にしてもよい。
図5にデータセンタ300の運用者、もしくは採用者が設定した場合の自己PR用の項目を挙げる。たとえば、求職者は各項目をPRする際、「私の名前は…」のように項目名を発言するなどのルールを決めてもよく、また各項目毎に撮影するなどのルールを設定して、各項目のPR開始時刻を、たとえば映像の切り替わりで示してもよく、あるいは、前記ルールを一切決めなくてもよい。
【0063】
保存記録部103は、たとえば、パーソナルコンピュータなどに撮像データをディジタル化してファイルとして保存する。この時、ディジタル化したファイルは圧縮されているか否かはいずれでもよく、圧縮する場合においても、いずれの圧縮形式でもよい。
データセンタ送信部104(図2)は、前記個人情報登録部101で登録した個人情報と保存記録部103で保存した自己PR映像を後記するデータセンタ300へ送信する。送信方法としてはたとえば、ディジタル化された自己PR映像ファイルをネットワーク200を経由してデータセンタ300へ送信してもよい。ただし、データセンタ300で自己PRビデオをディジタル化する場合、前記保存記録部103におけるディジタル化して保存する手続きは不必要である。
【0064】
ネットワーク200はインターネット、LAN、電話回線、BS、CS、CATVのいずれでもよい。たとえば、インターネットプロバイダーなどのネットワーク仲介者が運用したものでよい。
図6はデータセンタ300の構成の一例を示す。データセンタ300は求職者データ入力部301、求職者個人情報データベース302と、自己PR音声映像データベース303と、採用条件入力部304と、検索部305と、自己PR音声映像要約部306と、自己PR音声映像配信部307と、採用者評価部308と、連絡部309とから構成される。
【0065】
求職者データ入力部301は、前記データセンタ送信部104(図2)から送信された求職者の属性情報と自己PR音声映像ファイルを入力し、求職者個人情報データベース302と自己PR音声映像データベース303に保存する。採用条件入力部304は、採用者からの希望属性情報となる採用条件項目を入力する。
図7に、希望属性情報となる採用条件項目の例を示す。たとえば、採用者は採用の条件として、学歴や業務経験などを指定する。採用条件項目は、何らかのフォーマットにしたがってたとえばパーソナルコンピュータで作成してもよく、マウスなどの機器を用いて選択する方法であってもよい。入力はたとえば、インターネットのホームページから入力するものでもよい。検索部305は求職者個人情報データベース302から、採用条件入力部304で採用者から入力された希望属性情報と一致する属性情報を検索する。希望属性情報と一致する属性情報がない場合、最も希望属性情報に近い属性情報を検索する。自己PR音声映像要約部306は検索部305で検索した属性情報に該当する自己PRビデオを要約する。
【0066】
図8に自己PR音声映像要約部306の一例を示す。自己PR音声映像要約部306は要約条件入力部306−1と、自己PR音声映像入力部306−2と、映像・音声分離部306−3と、自己PR項目検出部306−4と、カット点抽出部306−5と、音声認識部306−6と、音声映像要約部306−8と、映像編集部306−9とによって構成される。
要約条件入力部306−1は、たとえば、採用者が入力した希望属性情報を採用者発掘部400に相当する端末からネットワーク200を介して入力するか又はデータセンタ300の運用者が設定することができる。入力は例えばパーソナルコンピュータ上の画面にて行うことができる。
【0067】
図9に要約条件入力のための画面について、典型的な例を示す。要約条件としては一人あたりの自己PR映像の視聴を、視聴時間で設定するか又は映像のシーン数で設定するかを選択する。図9に示す例では、ステップSI306−1−1を選択しており、左の丸印がチェックされている。視聴時間を選択した場合、ステップSI306−1−2で、採用者の希望する視聴時間を要約時間として入力して各求職者当たり略この視聴時間に自己PR映像を要約することになる。図9では、30秒に設定している。尚、視聴シーン数を選択した場合はステップSI306−1−4で、採用者の希望するシーン数を入力する。
【0068】
自己PR映像入力部306−2では自己PR音声映像データベース303から検索部305で検索された人材の自己PR映像を入力し、映像・音声分離部306−3で映像から音声を分離する。ただし、元の自己PR映像は音声付のまま保存しておき、分離した音声をたとえば、ハードディスクやコンピュータのメモリ上に保存しておく。後記する音声処理を施す場合は、映像・音声分離部306−3で分離した音声を用いる。また映像処理を施す場合は音声付の自己PR映像を用いる。
【0069】
自己PR項目検出部306−4では自己PR項目を検出する。自己PR映像のPR項目があらかじめデータセンタ300の運用者や採用者が設定している場合、前記のように、求職者がPR項目毎に撮影し一旦撮影機の録画を停止することでその前後のフレーム間での映像情報の差が著しくなり、映像にカット点が出現する。カット点抽出部306−5ではこのカット点を利用して各PRの開始時刻と終了時刻を得ることができる。また、求職者がデータセンタ300に登録する際に、PR項目ごとに自己PR映像ファイルを作成しておいてもよい。また、各PR項目の開始にあたって、たとえば、図5の7番目のPR項目において求職者が「これからの仕事で一番してみたいことは…」と発話することで、音声認識部306−7で各PRの開始時刻と終了時刻を得ることができる。
【0070】
音声認識方法については、たとえば、日本国特開平8−6588号などに示されている。音声映像要約部306−8は、上述した強調状態判定手段により発話の強調状態を検出し、聴取して意味の理解できる単位としての音声段落を抽出し、強調を含む音声段落をつなぎ合わせて先に説明した方法により要約音声を生成する。これと共に、要約音声区間に対応する映像を切り出して要約映像情報を得る。
図10は自己PR映像要約の手段の模式図である。ステップSI306−8−1で上述した強調確率を時系列で求め、ステップSI306−8−2で音声段落を抽出する。ステップSI306−8−3で抽出した音声段落が強調を含む音声段落である場合、対応するステップSI306−8−4の自己PR映像を、自己PR要約映像に用いる候補とする。要約条件入力部306−1(図8)で設定された要約条件について、たとえば、図9で示した自己PR視聴時間を一人当り30秒で再生する条件の場合の、自己PR映像要約方法について、図11に示す。以下にその実施例について述べる。
【0071】
ステップSI306−8−5で強調状態区間を含む音声段落区間を抽出する。音声段落の各々の強調確率からステップSI306−8−6で、音声段落毎に求められる強調確率もしくは強調確率の平静状態である確率に対する確率比の降順に強調の順位を定める。ステップSI306−8−7では自己PR視聴時間を例えば一人当り30秒で作成するために、定められた強調の順位ごとに音声段落毎の再生時間を累積し、与えられた視聴時間(この場合30秒)に最も近似するように音声段落の数を決定する。図11に示す例では、ステップSI306−8−6で付与した強調の順位に従い、3つの音声段落(可と判定した音声段落)をつなぎ合わせた場合に、30秒の自己PR要約映像となる例である。ステップSI306−8−8で、前記ステップSI306−8−7で可と判定した3つの音声段落について、再生順序を決める。たとえば、ステップ306−8−8に示すように時系列に再生すればよく、また、前記ステップSI306−8−6で付与した強調の順位にしたがって再生してもよい。ステップSI306−8−9で自己PR要約映像を作成する。自己PR要約映像は、ステップSI306−8−8で決定した再生順序に従って音声段落をつなぎ合わせて生成される。
【0072】
自己PR音声映像配信部307(図6参照)は自己PR映像要約部306で作成した自己PR要約音声映像と個人情報を含む属性情報を採用者発掘部400へ送信する。採用者発掘部400が自己PR音声映像配信部307から受信した求職者の自己PR要約音声映像を視聴した後、(求職者の映像を視聴して)採用者の評価情報を入力し、データセンタ300の採用者評価受信部308に送信する。ここで得た採用者の評価を必要に応じて求職者登録部100である求職者端末に送信する。
【0073】
図13は採用者発掘部400の動作を説明するための流れ図を示す。
ステップSI402で採用者が採用条件を入力する。たとえば、図7のような項目について条件を入力する。ステップSI403で自己PR映像要約条件を入力する。たとえば、図9のように入力する。ステップSI404で自己PR要約映像を視聴し、ステップSI405で再度自己PR要約映像を視聴するか否かを示す情報を入力する。
再度自己PR要約映像を視聴する場合、ステップSI406で前記ステップSI402の採用条件と同じであるかを示す情報を入力し、同じでない場合、ステップSI402の採用条件を入力しなおす。ステップSI402の採用条件と同じ場合、ステップSI407で自己PR要約条件は同じであるかを示す情報を入力し、同じでない場合ステップSI403の自己PR映像要約条件を入力しなおす。
【0074】
たとえば、30秒の自己PR要約映像を視聴し、求職者の採用に前向きに検討する場合などに、2度目以降は60秒の自己PR要約映像を視聴するなどの利用法がある。ステップSI405で再度自己PR要約映像の視聴を希望しない場合、ステップSI408で自己PR映像を視聴するかを示す情報を入力し、要約でなくもとの自己PR映像を視聴する場合、ステップSI409で自己PR映像を視聴し、ステップSI410で再度自己PR映像を視聴するかを示す情報を入力し、再度視聴する場合は、ステップSI409へ、視聴しない場合は、ステップSI411で求職者と面接するか否かを示す情報を入力する。
【0075】
ステップSI408で自己PR映像の視聴を希望しない場合も同様にステップSI411で求職者と面接するか否かを示す情報を入力する。面接を希望する場合、ステップSI412で求職者の端末に面接希望を示す情報を送信する。ここで面接とは、たとえば、求職者連絡部309(図6参照)から求職者に連絡し、場所を設定して採用者と求職者が面接してもよく、また、採用者から直接求職者へ連絡して面接場所を決定してもよい。また、直接面接を行わず、インターネット電話などのネット家電装置を用いて面接を行ってもよい。
【0076】
ステップSI411で求職者との面接を希望しない場合、ステップSI413で求職者を採用するかを示す情報を入力する。採用を決定する場合もステップSI412で求職者の端末へ決定情報を送信して連絡する。採用を決定しない場合、ステップSI414で採用を保留することを示す情報を入力する。後程検討するか選択する。後ほど選択することを示す信号を入力した場合、ステップSI415で求職者を採用することを示す情報を保持し、保留しないことを示す情報を入力した場合、求職者端末に不採用を示す情報を送信する。ステップSI416で採用保留者以外、まだ自己PR要約映像を一度も見ていない求職者の自己PR要約映像を視聴するかを示す情報を入力する。ステップSI412で求職者の端末に面接希望を示す情報を送信した後同様にステップSI416で求職者の自己PR要約映像を視聴するかを示す情報を入力する。また、ステップSI415で求職者を採用保留にした後も同様にステップSI416で自己PR要約映像を視聴するかを示す情報を入力する。
【0077】
別の求職者の視聴を希望する場合、ステップSI406を実行し、以降のステップを繰り返す。ステップSI416で別の求職者の視聴を希望しない情報を入力する場合、ステップSI417で保留した求職者の自己PR要約映像を視聴するかを示す情報を入力しステップSI406の選択を行う。前記を繰り返すことにより、採用者の希望する求職者を決定し、ステップSI418で終了する。
図14は課金部500を構成するコンピュータで実行される課金のための手順を示す。課金手順は求職者登録料課金ステップSI501と、利用者登録料課金ステップSI502と、自己PR要約映像視聴料課金ステップSI503と、自己PR映像視聴料課金ステップSI504と、仲介料課金ステップSI505とからなり、前記いずれか一つでも当てはまれば成立する。
【0078】
求職者登録料部課金ステップSI501では求職者が求職のためにデータセンタに登録する際に登録料金を課金処理する。つまり、この課金処理は例えば求職者金融口座における金融残高から登録料金相当分を控除し、データ管理者の金融口座における金融残高に登録処理手数料相当分を加算する手順で実行される。
登録料としては例えば年間登録料3000円などと設定し、その期間中求職者はデータセンタ300に個人情報、自己PR映像などを登録することができる。採用者登録料課金ステップSI502では採用者が採用のためにデータセンタに登録する料金を課金処理する。この課金処理は、例えば採用者金融口座における金融残高から登録のための料金相当分を控除し、データ管理者の金融口座における金融残高に登録処理手数料相当分を加算する手順で実行される。
【0079】
この場合の登録料としては例えば、年間登録料10000円などと設定し、その期間中採用者はデータセンタ300に登録してある求職者情報と、求職者の自己PR映像を視聴することができる。
自己PR要約映像視聴料課金ステップSI503では採用者が視聴した求職者人数や、自己PR要約映像の視聴時間に応じて課金処理する。この課金処理も、例えば採用者金融口座における金融残高から視聴人数又は視聴時間に対応した利用料金相当分を控除し、データ管理者の金融口座における金融残高に利用手数料相当分を加算する手順で実行される。利用料金としては例えば、(100円/求職者)という料金を設定してもよい。あるいは、(1000円/1時間)と設定してもよい。また、求職者の自己PR要約映像を採用者が視聴する毎にその視聴料金を例えば(100円/採用者)と設定し、求職者の金融口座からその視聴料金相当分を控除してもよい。
【0080】
自己PR映像視聴料課金ステップSI504では採用者が自己PR映像を視聴した場合、採用者が視聴した求職者人数や、自己PR映像の視聴時間に応じた利用料金相当分を採用者に課金処理する。この課金処理は採用者の金融口座の残高データから利用料金相当分データを控除し、その利用料金相当分データをデータ管理者の金融口座の残高に加算する手順で実行する。
自己PR映像の利用料金としては例えば(1000円/求職者)と設定することができる。または(1000円/1時間)に設定してもよい。また、自己PR要約映像を採用者が視聴する際に(1000円/採用者)と設定し、この場合には自己PR要約映像を視聴された求職者に視聴した採用者の人数分の利用料金を課金してもよい。
【0081】
仲介料課金ステップSI505では図13に示したステップSI412の求職者へ連絡する場合に課金し、たとえば、面接1回につき1000円を採用者に課金するなどする。あるいは、採用が決定する毎に10000円を採用者に課金する、または10000円を求職者への課金処理を行う形態であってもよい。
この結果から明らかな様に、従来の技術に比べて、音声要約技術を用いることで、自己PR映像の要約が可能となる改善があった。また、採用者の希望する時間やシーン数で自己PR要約映像を視聴することが可能となり、採用者の採用活動の稼動を軽減する改善があった。また、採用者は希望する求職者の映像を任意に視聴することが可能となり、求職者の映像を採用者に強く印象付けることが可能となり、採用活動の効率化が出来る改善があった。また、求職者は自己PR映像を採用者に視聴され、テキスト情報以外に自己アピールを行うことが可能となり、テキスト情報に依存しない求職活動が出来る改善があった。
【0082】
以上説明したこの発明による要約情報提供方法はデータセンタ300を構成する計算機により本発明の要約情報提供プログラムを実行して実現できる。ここで当該プログラムを通信回線を介してダウンロードしたり、CD−ROMや磁気ディスク等の記憶媒体からCPUのような処理手段にインストールして実行される。
【0083】
【発明の効果】
この結果から明らかな様に、従来の技術に比べて、音声要約技術を用いることで、自己PR映像の要約の自動化が可能となる効果がある。また、採用者の希望する時間やシーン数で自己PR要約映像を視聴することが可能となり、採用者の採用活動の稼動を軽減する効果がある。また、採用者は希望する求職者の映像を任意に視聴することが可能となり、求職者の映像を採用者に強く印象付けることが可能となり、採用活動の効率化が行える効果がある。また、求職者は自己PR映像を採用者に視聴され、テキスト情報以外に自己アピールを行うことが可能となり、テキスト情報に依存しない求職活動が出来る効果がある。
【図面の簡単な説明】
【図1】 この発明による要約情報配信システムの基本構成を説明するためのブロック図。
【図2】 図1に示した求職者登録部の構成を説明するためのブロック図。
【図3】 図2に示した求職者登録部で行なわれる個人情報を登録する手順を説明するための流れ図。
【図4】 図2に示した映像撮影部のデータ取得状況を説明するための図。
【図5】 図2に示した求職者が自己PR映像を撮影する際の、PRする項目の例を示す図。
【図6】 図1に示したデータセンタの内部の構成を説明するためのブロック図。
【図7】 図6に示した採用条件入力部に採用条件を入力する例を示す図。
【図8】 図6に示した自己PR音声映像要約部の構成の一例を説明するためのブロック図。
【図9】 図8に示した要約条件入力部に要約条件を入力する例を示す図。
【図10】 図8に示した音声映像要約部の動作を説明するための流れ図。
【図11】 図8に示した映像編集部の動作を説明するための流れ図。
【図12】 図11に示した自己PR要約音声映像情報に、自己PR項目のテロップを入力する例を示す流れ図。
【図13】 図1に示した採用者発掘部において採用者が採用を決定するまでの手順の例を示す流れ図。
【図14】 図1に示した課金部において、課金の手順の例を示す流れ図。
【図15】 先に提案した音声要約方法を説明するためのフローチャート。
【図16】 先に提案した音声段落の抽出方法を説明するためのフローチャート。
【図17】 音声段落と音声小段落の関係を説明するための図。
【図18】 図15に示したステップS2における入力音声小段落の発話状態を判定する方法の例を示すフローチャート。
【図19】 先に提案した音声要約方法に用いられるコードブックを作成する手順の例を示すフローチャート。
【図20】 この発明において用いられるコードブックの記憶例を示す例。
【図21】 発話状態尤度計算を説明するための波形図。
【図22】 先に提案した音声強調状態判定装置及び音声要約装置の一実施例を説明するためのブロック図。
【図23】 要約率を自由に変更することができる要約方法を説明するためのフローチャート。
【図24】 音声の要約に用いる音声小段落の抽出動作と各音声小段落の強調確率算出動作、音声小段落平静確率抽出動作を説明するためのフローチャート。
【図25】 音声要約装置に用いる音声強調確率テーブルの構成を説明するための図。
【図26】 要約率を自由に変更することができる音声要約装置の一例を説明するためのブロック図。
【符号の説明】
100 求職者登録部
200 ネットワーク
300 データセンタ
301 求職者データ入力部
302 求職者個人情報データベース
303 自己PR音声映像データベース
304 採用条件入力部
305 検索部
306 自己PR音声映像要約部
307 自己PR音声映像配信部
308 採用者評価受信部
309 連絡部
400 採用者発掘部
500 課金部
Claims (9)
- 映像付き音声について、フレーム毎の音声特徴量の組に基づき音声の強調状態を判定し、要約区間を判定する要約区間判定方法であって、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出ステップと、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出ステップと、
前記強調状態となる尤度が所定の値よりも大きい前記音声信号区間を要約区間と判定する要約区間判定ステップと、
要約区間と判定した前記音声信号区間の開始時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の開始位置とする、または要約区間と判定した前記音声信号区間の終了時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の終了位置とする要約区間変更ステップと、
を有する要約区間判定方法。 - 項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求め
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記強調状態となる尤度が所定の尤度よりも大きい前記音声信号区間を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。 - 項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が平静状態となる尤度を算出し、
前記強調状態となる尤度と前記平静状態となる尤度とを比較(尤度に重みを付けた比較も含む)して、前記強調状態となる尤度の方が大きい前記音声信号区間を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。 - 項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出し、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が平静状態となる尤度を算出し、
強調状態となる尤度の前記平静状態となる尤度に対する比を前記音声信号区間ごとに算出し、
前記比の降順に対応する前記音声信号区間の時間を累積して要約区間の時間の総和を算出することにより、前記要約区間の時間の総和が所定の要約時間となる前記音声信号区間を要約区間と決定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。 - 項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、
前記音声信号の所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落の後半部に含まれる1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
各音声小段落の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が強調状態となる尤度を算出し、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が平静状態となる尤度を算出し、
各音声小段落について前記強調状態となる尤度と前記平静状態となる尤度とを比較(尤度に重みを付けた比較も含む)して、前記強調状態となる尤度の方が大きい音声小段落を含む音声段落を要約区間と判定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。 - 項目別に映像信号と同時に収録された音声信号と該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率および平静状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、
前記音声信号をフレームごとに無音区間か否か、有声区間か否か判定し、
前記音声信号の所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落の後半部に含まれる1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
各音声小段落の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率を前記符号帳から求め、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が強調状態となる尤度を算出し、
前記音声小段落の各フレームの前記音声特徴量ベクトルの前記平静状態での前記出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて、該音声小段落が平静状態となる尤度を算出し、
強調状態となる尤度の前記平静状態となる尤度に対する比を音声小段落ごとに算出し、
前記比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出することにより、前記要約区間の時間の総和が所定の要約時間となる音声小段落を要約区間と決定し、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力することを特徴とする要約情報提供方法。 - 映像付き音声について、フレーム毎の音声特徴量の組に基づき音声の強調 状態を判定し、要約区間を判定する要約区間判定装置であって、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率と対応して格納した符号帳を用い、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出部と、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出部と、
前記強調状態となる尤度が所定の値よりも大きい前記音声信号区間を要約区間と判定する要約区間判定部と、
要約区間と判定した前記音声信号区間の開始時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の開始位置とする、または要約区間と判定した前記音声信号区間の終了時刻に接近した映像信号のカット点を抽出して当該カット点を前記要約区間の終了位置とする要約区間変更部と、
を具備していることを特徴とする要約区間判定装置。 - 項目別に映像信号と同時に収録された音声信号と、該音声信号の属性情報とを対応付けて蓄積するデータ蓄積手段と、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうち少なくともいずれか1つを含む特徴量の組から成る音声特徴量ベクトルと、強調状態での前記音声特徴量ベクトルの出現確率とを対応させて格納した符号帳を用い、
希望属性情報を入力し、前記希望属性情報で示される条件を満足する属性情報と該属性情報に対応する項目別の映像信号と音声信号を前記データ蓄積手段から読み出し、複数のフレームから構成される音声信号区間において、該音声信号区間内の各フレームの前記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を前記符号帳から求める出現確率算出部と、
前記音声信号区間内の各フレームの前記音声特徴量ベクトルの前記強調状態での前記出現確率を該音声信号区間内で乗算または和算し、その計算結果に基づいて、該音声信号区間が強調状態となる尤度を算出する尤度算出部と、
前記強調状態となる尤度が所定の尤度より大きい前記音声信号区間を要約区間と判定する要約区間決定部と、
前記要約区間の映像信号と前記読み出された属性情報の少なくとも一部を利用者装置に出力する出力部と
を具備していることを特徴とする要約情報提供装置。 - コンピュータが読取り可能な符号によって記述され、前記請求項1乃至6記載の方法の何れかをコンピュータに実行させること
を特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002058447A JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002058447A JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003255981A JP2003255981A (ja) | 2003-09-10 |
JP3803301B2 true JP3803301B2 (ja) | 2006-08-02 |
Family
ID=28668416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002058447A Expired - Lifetime JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3803301B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6663134B2 (ja) * | 2016-03-07 | 2020-03-11 | 富士ゼロックス株式会社 | 動画編集装置およびプログラム |
JP7369739B2 (ja) * | 2021-06-28 | 2023-10-26 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
WO2024043444A1 (ko) * | 2022-08-24 | 2024-02-29 | 삼성전자주식회사 | 조리 기기 및 조리 기기의 제어 방법 |
-
2002
- 2002-03-05 JP JP2002058447A patent/JP3803301B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003255981A (ja) | 2003-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
US10192547B2 (en) | System and method for customized voice response | |
US20200127865A1 (en) | Post-conference playback system having higher perceived quality than originally heard in the conference | |
US10516782B2 (en) | Conference searching and playback of search results | |
US10057707B2 (en) | Optimized virtual scene layout for spatial meeting playback | |
US11076052B2 (en) | Selective conference digest | |
CN111182347B (zh) | 视频片段剪切方法、装置、计算机设备和存储介质 | |
US20180336902A1 (en) | Conference segmentation based on conversational dynamics | |
US20180190266A1 (en) | Conference word cloud | |
JP2002358092A (ja) | 音声合成システム | |
WO2023029984A1 (zh) | 视频生成方法、装置、终端、服务器及存储介质 | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
CN111883107A (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
JP7101057B2 (ja) | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム | |
CN112863489A (zh) | 语音识别方法、装置、设备及介质 | |
CN112102807A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN113516963B (zh) | 音频数据的生成方法、装置、服务器和智能音箱 | |
JP3803301B2 (ja) | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム | |
CN112634879A (zh) | 语音会议管理方法、装置、设备及介质 | |
JP3803302B2 (ja) | 映像要約装置 | |
JP2003288096A (ja) | コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム | |
CN115273826A (zh) | 歌声识别模型训练方法、歌声识别方法及相关装置 | |
CN115294987A (zh) | 一种会议记录生成方法、装置、设备及存储介质 | |
CN114078464B (zh) | 音频处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050929 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060502 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3803301 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090512 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100512 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100512 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110512 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120512 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130512 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140512 Year of fee payment: 8 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |