JP7192507B2

JP7192507B2 - 情報処理装置、及び情報処理プログラム

Info

Publication number: JP7192507B2
Application number: JP2019001851A
Authority: JP
Inventors: 泰伊藤
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2022-12-20
Anticipated expiration: 2039-01-09
Also published as: US11314810B2; US20200218765A1; JP2020112920A

Description

本発明は、情報処理装置、及び情報処理プログラムに関する。

特許文献１には、入力音声を音声認識した認識結果が記憶された認識結果記憶部と、前記入力音声のタスクに関連のある関連文書が記憶された関連文書記憶部と、認識辞書が記憶された認識辞書記憶部と、前記認識辞書に追加登録単語を追加した拡張認識辞書を記憶する拡張認識辞書記憶部と、前記認識辞書に登録されていない未登録単語を記憶する未登録単語記憶部と、前記関連文書から、前記認識辞書を用いて、前記未登録単語を抽出する未登録単語抽出部と、前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出部と、前記認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出部と、前記共起頻度ベクトルと前記単語頻度ベクトルから、前記未登録単語ごとに、タスク関連度を算出するタスク関連度算出部と、前記未登録単語と前記関連文書から、当該未登録単語の前記関連文書における出現頻度である未登録単語頻度を算出する未登録単語頻度算出部と、前記タスク関連度と前記未登録単語頻度から、前記未登録単語ごとに、登録優先度を算出する登録優先度算出部と、前記未登録単語と前記登録優先度から、予め設定された閾値を用いて、前記追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して前記拡張認識辞書を生成する認識辞書登録部と、を備えることを特徴とする単語追加装置が開示されている。

特開２０１３－１０９１２５号公報

音声認識に用いる語彙を収集する場合、用いられる語彙の傾向に場面毎の特徴が見られるため、音声認識に用いる語彙を、場面と関連した文書として各々の場面と予め関連付けられている関連文書から抽出することがある。

しかしながら、この場合、語彙の抽出対象が音声認識を行う場面と予め関連付けられている関連文書に限定されるため、限られた範囲内の語彙しか関連文書に含まれない場合であったとしても、場面に予め関連付けられている関連文書以外から語彙を抽出することがなかった。

本発明は、予め定められた関連文書だけから音声認識に用いる語彙を抽出する場合と比較して、場面にあった語彙を効率的に収集することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。

第１態様に係る情報処理装置は、発話者の発話内容、前記発話者によって発話が行われた、複数の処理単位から構成される業務の処理構造、及び前記処理構造における実行中の処理単位を受け付ける受付部と、前記受付部で受け付けた前記実行中の処理単位を含む少なくとも１つの処理単位と予め対応付けられた関連文書の中から、前記受付部で受け付けた前記発話者の発話内容との類似度合いが閾値以上となる文章を含む関連文書を抽出する抽出部と、前記抽出部で抽出された関連文書に含まれる語彙の数が、前記発話者の発話内容に含まれる語彙の数に対して設定された数以下しか含まれない場合に、前記受付部で受け付けた前記処理構造に従って、前記抽出部が次に関連文書を抽出する処理単位を設定する設定部と、を備える。

第２態様に係る情報処理装置は、第１態様に係る情報処理装置において、前記設定部が、前記実行中の処理単位との共通属性を規定した適合条件を満たす処理単位が検出されるまで、前記処理構造に従って処理単位を順次選択し、前記適合条件を満たす処理単位を、前記抽出部が次に関連文書を抽出する処理単位に設定する。

第３態様に係る情報処理装置は、第２態様に係る情報処理装置において、前記適合条件が、前記実行中の処理単位で発話した前記発話者、及び前記実行中の処理単位の処理に関与する関与者の少なくとも一方と同じであると規定される。

第４態様に係る情報処理装置は、第３態様に係る情報処理装置において、前記適合条件に規定された前記発話者及び前記関与者の少なくとも一方が、更に複数人として規定される。

第５態様に係る情報処理装置は、第２態様～第４態様の何れかの態様に係る情報処理装置において、前記設定部が、前記抽出部で前記適合条件を満たす処理単位に対応付けられた関連文書から抽出された関連文書に含まれる語彙の数が前記設定された数以下である場合、前記処理構造に従って処理単位を順次選択し、規定内容を変更した変更後の前記適合条件を満たす処理単位を、前記抽出部が次に関連文書を抽出する処理単位に設定する。

第６態様に係る情報処理装置は、第５態様に係る情報処理装置において、前記設定部が、前記適合条件の変更回数が予め定めた回数を超えた場合、前記処理構造に変更後の前記適合条件を満たす処理単位が存在しないと設定する。

第７態様に係る情報処理装置は、第５態様または第６態様に係る情報処理装置において、前記設定部が、前記抽出部で変更後の前記適合条件を満たす処理単位に対応付けられた関連文書から抽出された関連文書を含む、抽出された各々の関連文書に含まれる語彙の数が前記設定された数以下である場合、実行中の処理単位を含む前記処理構造で表される業務と同じ業務の他の事例を、関連文書の新たな検出対象に設定する。

第８態様に係る情報処理装置は、第７態様に係る情報処理装置において、前記設定部が、前記発話者が発話した記録が対応付けられている前記他の事例のうち、関連文書の抽出対象となった事例の発生時間からの間隔が最も短い事例から順に、関連文書の新たな抽出対象に設定する。

第９態様に係る情報処理装置は、第７態様または第８態様に係る情報処理装置において、前記設定部が、前記適合条件を満たす処理単位の新たな検出対象となる前記他の事例への変更回数が予め定めた回数を超えた場合、前記適合条件を満たす処理単位の新たな検出対象を設定しないようにする。

第１０態様に係る情報処理装置は、第１態様～第９態様の何れかの態様に係る情報処理装置において、前記設定部が、前記発話者の発話内容と前記抽出部で抽出された関連文書との類似度合いに応じて前記設定された数を設定する。

第１１態様に係る情報処理装置は、第１０態様に係る情報処理装置において、前記設定部が、前記発話者の発話内容と前記抽出部で抽出された関連文書との類似度合いが高くなるに従って、前記設定された数が少なくなるように設定する。

第１２態様に係る情報処理プログラムは、コンピュータを、第１態様～第１１態様の何れかの態様に係る情報処理装置の各部として機能させるためのプログラムである。

第１態様、及び第１２態様によれば、予め定められた関連文書だけから音声認識に用いる語彙を抽出する場合と比較して、場面にあった語彙を効率的に収集することができる、という効果を有する。

第２態様によれば、業務の処理構造に含まれる各々の処理単位から関連文書を順次抽出する場合と比較して、語彙の収集が終了するまでの時間を短縮することができる、という効果を有する。

第３態様によれば、実行中の処理単位に関与する発話者及び関与者と異なる人物が関与している処理単位から関連文書を抽出する場合と比較して、実行中の処理単位に関与する発話者の音声認識率を高める語彙を収集することができる、という効果を有する。

第４態様によれば、適合条件にそれぞれ１人しか発話者及び関与者を設定することができない場合と比較して、実行中の処理単位が行われている状況により近い場面の処理単位から関連文書を抽出することができる、という効果を有する。

第５態様によれば、条件内容が不変の適合条件に従って関連文書を抽出する場合と比較して、より多くの関連文書を抽出することができる、という効果を有する。

第６態様によれば、適合条件を変更しても抽出された関連文書に含まれる語彙が設定された数を超えない場合であっても、強制的に関連文書の抽出を終了させることができる、という効果を有する。

第７態様によれば、実行中の業務事例から抽出された関連文書に含まれる語彙の数が設定された数を超えない場合であっても、設定された数を越える語彙を収集することができる、という効果を有する。

第８態様によれば、関連文書の抽出対象である事例の発生時間からの間隔が最も長い事例から順に、関連文書の新たな抽出対象とする場合と比較して、発話者の最近の発言傾向に即した語彙を収集することができる、という効果を有する。

第９態様によれば、関連文書の抽出対象となる事例を変更しても抽出された関連文書に含まれる語彙の数が設定された数を超えない場合であっても、強制的に関連文書の抽出を終了させることができる、という効果を有する。

第１０態様によれば、予め関連文書から収集する語彙の数を決めておく場合と比較して、目標とする音声認識率に必要な語彙の収集が行われやすくなる、という効果を有する。

第１１態様によれば、予め定めた数の語彙が関連文書から収集されるまで関連文書を抽出し続ける場合と比較して、関連文書の抽出に要する時間を短縮することができる、という効果を有する。

情報処理装置の機能構成例を示す図である。業務の処理構造例を示す図である。情報処理装置における電気系統の要部構成例を示す図である。情報処理の流れの一例を示すフローチャートである。タスク順序列の一例を示す図である。変形例１における情報処理の流れの一例を示すフローチャートである。フィルタ条件テーブルの一例を示す図である。変形例２における情報処理の流れの一例を示すフローチャートである。業務における他の事例の一例を示す図である。

以下、本実施の形態について図面を参照しながら説明する。なお、機能が同じ構成要素及び処理には全図面を通して同じ符合を付与し、重複する説明を省略する。

＜実施形態＞
図１は、発話者が発した音声データを受け付け、受け付けた音声データの内容と関連する文書から語彙を収集して、音声認識の際に用いる辞書を生成する情報処理装置１０の機能構成例を示す図である。図１に示すように情報処理装置１０は、受付部１１、仮認識部１２、抽出部１３、設定部１４、及び収集部１５を含み、抽出部１３は更に類似度判定部１３１を含む構成を有している。

発話者は、例えば何らかの事柄を処理するために自分の考えや要望等を相手に伝えることがあるが、ここでは会話を伴って進められる事柄を「業務」という。例えば銀行の窓口では、融資を受けたい人が発話者となって融資担当の職員と会話をすることで融資業務が行われる。また、口座を開設したい人が発話者となって担当の職員に口座の開設を依頼することで口座開設業務が行われる。こうした融資業務や口座開設業務等の各々が業務の種類である。

図２は、業務の処理構造例を示す図である。業務は複数の処理単位で構成され、各々の処理単位を指定された順に処理することで遂行される。図２に示す業務は、処理単位α～εの５つの処理単位で構成され、例えば処理単位α、処理単位β、処理単位γ、処理単位δ、及び処理単位εの順に処理されることを表している。以降では、業務の処理構造によって表される業務の流れのことを「業務フロー」と呼び、業務フローにおける各々の処理単位を「タスク」という。また、タスクを用いて表される業務の処理構造を「タスク構造」ということにする。

融資業務の場合、例えばタスクαは融資を希望する顧客の情報を事前に登録する入力処理、タスクβは窓口で顧客から話を聞くヒアリング処理、タスクγは顧客の信用力を調査する調査処理、タスクδは信用力の調査結果に基づいて融資を行うか審査する審査処理、タスクεは審査結果を顧客に通知する通知処理といった対応付けが行われる。なお、業務フローに含まれるタスクの数やタスクの処理順は業務毎に異なっており、図２に示す業務フローは一例にすぎない。

受付部１１は、発話者の発話内容を表す音声データと、発話が行われている業務のタスク構造、及び発話者の発話が行われた場面におけるタスク（「実行中のタスク」という）を示す情報を受け付ける。実行中のタスクを示す情報には、例えばタスク名やタスクを一意に示す識別番号（例えばタスクＩＤ(Identification：ID)）が用いられる。なお、実行中のタスクとは、当該タスクの処理が実時間に沿って行われていることを表しているのではなく、受付部１１で受け付けたタスク、すなわち、情報処理装置１０の処理対象となっているタスクのことをいう。したがって、タスク自体の処理は必ずしも受付部１１で音声データ等を受け付けたタイミングで実行されている必要はない。以降では、実行中のタスクを「実行中タスク」と表す場合がある。

受付部１１は、受け付けた音声データ、業務フロー、及び実行中タスクを示す情報を記憶装置に記憶すると共に、音声データを仮認識部１２に通知する。なお、各々の業務に対するタスク構造が業務と対応付けられて予め記憶装置に記憶されている場合には、受付部１１は業務のタスク構造の代わりに、対応するタスク構造を一意に指定する業務ＩＤを受け付けるようにしてもよい。この場合、業務ＩＤからタスク構造が取得されることになる。

仮認識部１２は音声データを受け付けると、公知の音声認識手法を用いて音声データを文字に変換する。仮認識部１２は、実行中タスクが処理される場面において、他のタスクに比べて発話者が用いる傾向が高い語彙を集めた辞書、すなわち、タスクに最適化された最適化辞書ではなく、まだ業務に関連する語彙が反映されていない予め定めた辞書を用いて音声認識を行う。したがって、仮認識部１２での音声認識結果は、「仮認識結果」とも呼ばれる。

抽出部１３は、実行中タスクに対応付けられている文書の中から、仮認識結果として表される発話者の発話内容との類似度が閾値以上となる文章を含む文書を抽出する。また、抽出部１３は、場合によっては後述する設定部１４で設定されたタスクに対応付けられている文書の中から、仮認識結果として表される発話者の発話内容との類似度が閾値以上となる文章を含む文書を抽出する。すなわち、抽出部１３は、少なくとも１つのタスクに対応付けられている文書から、発話者の発話内容との類似度が閾値以上となる文章を含む文書を抽出する。

発話者の発話内容と関連文書の類似度の判定は、抽出部１３に含まれる類似度判定部１３１によって実行される。

各々のタスクに対応付けられている文書は、タスクと関連する文書であるため「関連文書」と呼ばれる。関連文書には、予めタスクと対応付けられたフォルダ等の格納領域に含まれる文書、及び特定のキーワードを用いて検索された文書が含まれる。具体的には、例えばタスクを処理する上で参照されるマニュアル、及びタスクの処理過程で作成された書類等、タスクと関係する文書であれば文書の種類及び内容を問わず、どのような文書であっても関連文書として取り扱われる。したがって、発話者の発話内容も関連文書の一例である。

タスクの処理過程で発話した発話者に対する音声認識率を高めるためには、発話内容に関連した語彙を多く収集することが好ましい。この観点から、発話者が発した発話内容に含まれる語彙（「発話語彙」という）のうち、予め定めた数（「規定数Ｍ（Ｍは正の整数）」という）を超える発話語彙が含まれるまで関連文書を取得することが好ましい。規定数Ｍは、辞書の作成に必要な数の語彙が得られたか否かを定量的に判断する際に用いられる評価値であり、例えば発話語彙の数に対する、抽出された関連文書に含まれる発話語彙の量を規定する予め設定された割合に基づいて予め設定される。すなわち規定数Ｍは、本実施の形態に係る設定された数の一例である。

したがって、設定部１４は、抽出部１３で抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合、関連文書から収集される発話語彙の数が規定数Ｍを超えるまで、受付部１１で受け付けたタスク構造に含まれる各々のタスクを予め定めた探索順序に従って探索し、予め定めた条件を満たすタスクを、抽出部１３が次に関連文書を抽出するタスクとして設定する。抽出部１３で抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えた場合には、設定部１４は次に関連文書を抽出するタスクを設定しないようにして、抽出部１３に関連文書の抽出の終了を通知する。

なお、関連文書の抽出に用いられる予め定めた条件は、本実施の形態に係る適合条件の一例であり、以降では「フィルタ条件」ということにする。また、抽出部１３で抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えるという状況は、抽出された少なくとも１つの関連文書に含まれる発話語彙の合計数が規定数Ｍを超えること状況を表す。

抽出部１３での関連文書の抽出が終了した場合、収集部１５は仮認識結果を参照し、抽出部１３で抽出された各々の関連文書から発話者の発話内容に含まれない語彙を収集する。収集した語彙は仮認識結果に含まれる語彙と共に辞書としてまとめられ、実行中タスクに対する音声認識用の辞書として実行中タスクと対応付けられる。仮認識部１２は以降の音声認識で、収集部１５が収集した語彙を含む、実行中タスクと対応付けられた辞書を用いて音声認識を行うようにしてもよい。

図３は、情報処理装置１０における電気系統の要部構成例を示す図である。情報処理装置１０は、例えばコンピュータ２０を用いて構成される。

コンピュータ２０は、図１に示した本実施の形態に係る情報処理装置１０の各部を担うＣＰＵ(Central Processing Unit)２１、情報処理プログラムを記憶するＲＯＭ(Read Only Memory)２２、ＣＰＵ２１の一時的な作業領域として使用されるＲＡＭ(Random Access Memory)２３、不揮発性メモリ２４、及び入出力インターフェース(Ｉ／Ｏ)２５を備える。そして、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、不揮発性メモリ２４、及びＩ／Ｏ２５がバス２６を介して各々接続されている。

不揮発性メモリ２４は、不揮発性メモリ２４に供給される電力が遮断されても、記憶した情報が維持される記憶装置の一例であり、例えば半導体メモリが用いられるが、ハードディスクを用いてもよい。不揮発性メモリ２４は、必ずしもコンピュータ２０に内蔵されている必要はなく、メモリカードのようにコンピュータ２０に着脱可能な記憶装置を用いてもよい。

一方、Ｉ／Ｏ２５には、例えば通信ユニット２７、入力ユニット２８、及び表示ユニット２９が接続される。

通信ユニット２７は図示しない通信回線と接続され、図示しない通信回線に接続される図示しない外部装置とデータ通信を行う通信プロトコルを備える。例えば情報処理装置１０で収集した語彙や辞書は、通信ユニット２７を通じて図示しない外部装置に送信されることがある。

入力ユニット２８は、情報処理装置１０の操作者からの指示を受け付けてＣＰＵ２１に通知する入力装置であり、例えばボタン、キーボード、マウス、及びタッチパネル等が用いられる。

表示ユニット２９は、ＣＰＵ２１によって処理された情報を画像として表示する表示装置であり、例えば液晶ディスプレイ、または有機ＥＬ(Electro Luminescence)ディスプレイ等が用いられる。

なお、Ｉ／Ｏ２５に接続されるユニットは図３に示したユニットに限定されない。例えば音声で指示を受け付ける音声認識ユニットや、情報を用紙等の記録媒体に印字する印字ユニットをＩ／Ｏ２５に接続してもよい。

次に、図４を参照して、情報処理装置１０の動作について説明する。

図４は発話者の発話内容を表す音声データを受け付けた場合に、ＣＰＵ２１によって実行される情報処理の流れの一例を示すフローチャートである。

情報処理を規定する情報処理プログラムは、例えば情報処理装置１０のＲＯＭ２２に予め記憶されている。情報処理装置１０のＣＰＵ２１は、ＲＯＭ２２に記憶される情報処理プログラムを読み込み、情報処理を実行する。なお、情報処理装置１０には、一例として図２に示したような、実行中の業務のタスク構造を表す情報が例えば不揮発性メモリ２４に予め記憶されていると共に、情報処理装置１０は、当該業務における実行中タスクを示すタスクＩＤを予め受け付けているものとする。当然のことながら、情報処理装置１０は音声データと共に、実行中の業務のタスク構造及び実行中タスクを示すタスクＩＤを受け付けてもよい。

ステップＳ１０において、ＣＰＵ２１は公知の音声認識手法を用いて、受け付けた音声データに対して音声認識を実行し、音声データを文字に変換することで発話者の発話内容を取得する。公知の音声認識手法として、例えば深層学習技術を用いて機械学習された音声認識エンジンを用いる音声認識手法が挙げられる。ＣＰＵ２１は、取得した発話内容をＲＡＭ２３に記憶する。

ステップＳ２０において、ＣＰＵ２１は、実行中の業務のタスク構造を表した情報を不揮発性メモリ２４から取得する。

ステップＳ３０において、ＣＰＵ２１は、ステップＳ２０で取得した業務のタスク構造を用いて、タスク間における関連文書の探索順序を表すタスク順序列を生成する。タスク順序列の表現方法には、例えばデータ構造を示す場合に用いられる木構造が利用される。

図５は、図２に示したタスク構造を木構造で表した場合のタスク順序列の一例を示す図である。ＣＰＵ２１は、実行中タスクを根（ルート）としたタスク順序列を生成する。

図５の例では、ルートに相当するタスクγが実行中タスクであり、図２に示したタスク構造に従って、タスクγから見た各タスクのつながりに着目して生成したタスク順序列を表している。しかしながらタスク順序列の生成は、必ずしも各タスクのつながりに従って生成する必要はなく、例えばタスクの実行予定日時（既に実行済みのタスクについては実行日時）や、タスクの重要度に従ってタスク順序列を生成してもよい。

なお、業務フローに何らかの条件に応じて分岐するフローが含まれる場合、分岐先のタスク同士は同列順序のタスクとみなされる。したがって、ＣＰＵ２１は、分岐先のタスク同士をまとめて１つのタスクとして取り扱い、タスク順序列を生成してもよい。

ステップＳ４０において、ＣＰＵ２１は、ステップＳ３０で生成したタスク順序列に対して、予め定めた探索順序に従って関連文書の抽出対象となるタスクを設定する。以降、ステップＳ４０で関連文書の抽出対象として設定されたタスクを「抽出対象タスク」ということがある。

ＣＰＵ２１は、ステップＳ３０で生成されたタスク順序列に対して初めて抽出対象タスクを設定する場合、タスク順序列のルートに配置された実行中タスクを抽出対象タスクに設定する。これは、実行中タスクで発話者が発するような発話内容に含まれる語彙は、他のタスクよりも実行中タスクと対応付けられた関連文書の中に多く含まれると考えられるためである。

なお、後述するように実行中タスク以外のタスクを抽出対象タスクに設定する必要がある場合には、ＣＰＵ２１は、タスク順序列のルートに配置された実行中タスクから予め定めた探索順序に従って、関連文書の抽出対象となるタスクを設定する。

抽出対象タスクを設定するためにタスク順序列を探索する探索順序には、木構造で用いられる探索アルゴリズムが適用される。探索アルゴリズムには、例えば幅優先探索、深さ優先探索、遠方深さ優先探索があり、それぞれの探索アルゴリズムに対して順方向及び逆方向が存在する。

順方向の幅優先探索とは、ルートから見て深さの浅いタスクから順に、かつ、左側にある枝のタスクから順にタスクを探索する探索アルゴリズムであり、図５に示したタスク順序列の場合、タスクγ→タスクβ→タスクδ→タスクα→タスクεの順にタスクを探索する。

逆方向の幅優先探索とは、ルートから見て深さの浅いタスクから順に、かつ、右側にある枝のタスクから順にタスクを探索する探索アルゴリズムである。図５に示したタスク順序列の場合、タスクγ→タスクδ→タスクβ→タスクε→タスクαの順にタスクが探索される。

順方向の深さ優先探索とは、ルートの左側にある枝のタスクを深さの浅いタスクから末端のタスクに向かって探索し、末端のタスクに達した場合には、探索済みの枝の右側に隣接する枝のタスクを深さの浅いタスクから末端のタスクに向かって順次探索する探索アルゴリズムである。図５に示したタスク順序列の場合、タスクγ→タスクβ→タスクα→タスクδ→タスクεの順にタスクが探索される。

逆方向の深さ優先探索とは、ルートの右側にある枝のタスクを深さの浅いタスクから末端のタスクに向かって探索し、末端のタスクに達した場合には、探索済みの枝の左側に隣接する枝のタスクを深さの浅いタスクから末端のタスクに向かって順次探索する探索アルゴリズムである。図５に示したタスク順序列の場合、タスクγ→タスクδ→タスクε→タスクβ→タスクαの順にタスクが探索される。

順方向の遠方深さ優先探索とは、ルートの左側にある枝のタスクを末端のタスクから深さの浅いタスクに向かって探索し、ルートのタスクと隣接したタスクに達した場合には、探索済みの枝の右側に隣接する枝のタスクを末端のタスクから深さの浅いタスクに向かって順次探索する探索アルゴリズムである。図５に示したタスク順序列の場合、タスクγ→タスクα→タスクβ→タスクε→タスクδの順にタスクが探索される。

逆方向の遠方深さ優先探索とは、ルートの右側にある枝のタスクを末端のタスクから深さの浅いタスクに向かって探索し、ルートのタスクと隣接したタスクに達した場合には、探索済みの枝の左側に隣接する枝のタスクを末端のタスクから深さの浅いタスクに向かって順次探索する探索アルゴリズムである。図５に示したタスク順序列の場合、タスクγ→タスクε→タスクδ→タスクα→タスクβの順にタスクが探索される。

しかしながら、タスク構造に含まれるタスクの中には、実行中タスクで交わされる会話とは異なる内容の会話が交わされる傾向のあるタスク、すなわち、実行中タスクと関連性の低いタスクが存在する場合がある。例えばタスクγの発話者はＡさんで、Ａさんの話を聞いてタスクγの処理を担当する職員がＢさんである場合に、タスクβにＡさんもＢさんも関与していなければ、タスクβの関連文書にはタスクγの関連文書に比べて、タスクγでの会話で用いられる語彙が含まれる蓋然性が低いと考えられる。

したがって、タスク間の関連度合いを担保するため、情報処理装置１０では、実行中タスクとの共通属性を規定したフィルタ条件が予め設定されており、不揮発性メモリ２４に記憶されている。これは、実行中タスクと共通する属性を有する他のタスクは、実行中タスクと共通する属性を有さない他のタスクに比べて、実行中タスクとの関連性が高いと考えられ、実行中タスクと共通する属性を有する他のタスクの関連文書には、実行中タスクで交わされる会話の語彙と類似した語彙が含まれる可能性が高いと考えられるためである。

したがって、ＣＰＵ２１は、タスク順序列に従って抽出対象タスクを設定する場合、フィルタ条件を満たすタスクを抽出対象タスクに設定することになる。

フィルタ条件には、例えば「実行中タスクと同じ発話者及び担当者が関与しているタスク」といった条件が用いられるが、フィルタ条件の内容はこれに限定されない。例えば「実行中タスクと同じ発話者が関与しているタスク」、または「実行中タスクと同じ担当者が関与しているタスク」といった条件を用いてもよい。発話者の発話内容に応じてタスクを処理する担当者は、本実施の形態における関与者の一例である。

その他、例えば銀行の窓口で交わされる会話と銀行の会議室で交わされる会話には違いが見られることから、「実行中タスクと同じ場所で処理されるタスク」のように、タスクが処理される場所をフィルタ条件としてもよい。

ステップＳ５０において、ＣＰＵ２１は、ステップＳ４０で設定した抽出対象タスクと対応付けられた関連文書の各々を、当該関連文書が記憶された記憶装置から取得してＲＡＭ２３に記憶する。関連文書は、情報処理装置１０の不揮発性メモリ２４に記憶されていても、情報処理装置１０と異なる図示しない外部装置に記憶されていてもよい。関連文書が図示しない外部装置に記憶されている場合、ＣＰＵ２１は通信ユニット２７を制御することで、図示しない外部装置から抽出対象タスクと対応付けられた関連文書を、図示しない通信回線を通じて取得する。

ステップＳ６０において、ＣＰＵ２１は、ステップＳ５０で取得した各々の関連文書と、ステップＳ１０で取得した発話者の発話内容との類似度合いを関連文書毎に算出する。

関連文書と発話内容の類似度合いの算出には、公知の算出手法が用いられる。例えば、発話内容の特徴を表す発話特徴ベクトルと、関連文書に含まれる文章の特徴を表す文章特徴ベクトルを生成し、各々の特徴ベクトルのコサイン類似度を算出することで、関連文書と発話内容の類似度合いを表すスコア値が算出される。ＣＰＵ２１は、算出したスコア値を関連文書と対応付けてＲＡＭ２３に記憶する。なお、説明の便宜上、ここでは類似度合いを表すスコア値が高いほど、発話内容と関連文書とが類似しているものとする。

ステップＳ７０において、ＣＰＵ２１は、抽出対象タスクと対応付けられた関連文書のうち、スコア値が閾値以上となる関連文書を抽出する。閾値は、発話内容との関連性が認められると考えられる内容を有する関連文書のスコア値の下限を示すものであり、例えばサンプルの発話内容を用いた場合に抽出された関連文書のスコア値と、サンプルの発話内容及び抽出された関連の類似度合いとを調査した実験等から予め求められた値である。

これにより、抽出対象タスクと対応付けられた関連文書の中でも、他の関連文書に比べて発話内容との類似度合いが高い関連文書が抽出されることになる。以降ではステップＳ７０で抽出された関連文書を、単に「抽出された関連文書」ということがある。

ステップＳ８０において、ＣＰＵ２１は、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えたか否かを判定する。

抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合には、目標とする品質を有した辞書が作成されない場合があるため、実行中の業務のタスク構造において、実行中タスクと異なる他のタスクと対応付けられた関連文書から語彙を収集する。

したがって、抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下である場合にはステップＳ１１０に移行し、ステップＳ１１０において、ＣＰＵ２１は、実行中の業務のタスク構造の中にまだステップＳ４０で探索していない他のタスクが存在するか否かを判定する。

既に実行中の業務のタスク構造に含まれる全てのタスクを探索し終わっている場合には、タスク構造に含まれる各タスクに、実行中の業務と関連する残りの関連文書が存在しないことになる。この場合、含まれる発話語彙の合計数が規定数Ｍ以下となる関連文書から語彙を収集しても、目標とする品質を有する辞書が作成されない場合があるため、図４に示す情報処理を終了する。

一方、実行中の業務のタスク構造の中にまだステップＳ４０で探索していない他のタスクが存在している場合には、ステップＳ４０に移行する。ステップＳ４０では、前述したように、予め定めた探索順序に従ってタスク順序列を探索し、フィルタ条件を満たすタスクを関連文書の抽出対象となる次のタスクとして設定する。

すなわち、ＣＰＵ２１は、実行中の業務のタスク構造に含まれるタスクと対応付けられている関連文書から規定数Ｍを超える発話語彙を抽出するか、または実行中の業務のタスク構造に含まれるタスクからフィルタ条件を満たす全てのタスクを選択し終えるまでステップＳ４０～Ｓ８０、及びステップＳ１１０を繰り返し実行して、スコア値が閾値以上となる関連文書を抽出する。

一方、ステップＳ８０の判定処理で、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えていると判定された場合にはステップＳ９０に移行する。

この場合、発話内容に類似した関連文書が得られているため、ステップＳ９０において、ＣＰＵ２１は、抽出された関連文書の各々から語彙を収集するが、ステップＳ１０で取得した発話内容に含まれる語彙は、発話者の発話内容を取得するための音声認識で用いられた辞書に既に含まれている語彙ということになる。したがって、ＣＰＵ２１は、ステップＳ１０で取得した発話内容に含まれない語彙を、抽出された関連文書の各々から収集することが好ましい。

ステップＳ１００において、ＣＰＵ２１は、ステップＳ９０で収集した語彙の各々を用いて、実行中タスクにおける発話者の音声認識を行う際に用いられる辞書を作成する。

具体的には、ステップＳ９０で、ステップＳ１０で取得した発話内容に含まれない語彙を、抽出された関連文書の各々から収集した場合には、例えばステップＳ１０の音声認識で用いられた辞書にステップＳ９０で収集した語彙を追加する形で辞書が作成される。以上により、図４に示した情報処理を終了する。

図４に示した情報処理では、ステップＳ１１０の判定処理で既に実行中の業務のタスク構造に含まれる全てのタスクを探索し終わったと判定された場合には情報処理を終了したが、抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合であってもステップＳ９０に移行し、抽出された関連文書の各々から語彙を収集して辞書を作成するようにしてもよい。この場合、目標とする品質を有する辞書が作成されない場合も考えられるが、辞書に新たな語彙が追加されることになるため、辞書に登録される語彙数は増加する。

なお、図４のステップＳ７０では、スコア値が閾値以上となる関連文書を抽出したが、発話内容と類似した文章を有する関連文書を抽出するための判定方法はこれに限られない。例えばスコア値が高い方から予め定めた数の関連文書を抽出してもよい。また、タスクと対応付けられた関連文書の数に対して、スコア値が高い関連文書から順に抽出された関連文書の数の割合が予め定めた割合に達するまで、タスクと対応付けられた関連文書から関連文書を抽出してもよい。

また、タスクの選択に用いるフィルタ条件の一例として、「実行中タスクと同じ発話者及び担当者の双方が関与しているタスク」を用いる例について説明したが、発話者及び担当者がそれぞれ１人とは限られないため、発話者及び担当者の少なくとも一方を複数人に規定してもよい。この場合、発話者及び担当者の少なくとも一方のメンバーが実行中タスクと同じメンバーであるタスクが、実行中タスクと関連するタスクとして選択されることになる。

更に、例えば発話者が複数存在する場合、発言数が多い発話者から順に発話者を順序付けし、各々の発話者が実行中タスクと同じタスクであっても、発言数で順序付けされた発話者の順列が異なる場合には、フィルタ条件を満たしていないと判定してもよい。こうした順列は担当者について設定してもよく、例えば主担当及び副担当のようにタスクの処理に関わる関わり具合に応じて担当者を順序付けし、各々の担当者が実行中タスクと同じタスクであっても、タスクの処理との関わり具合で順序付けされた担当者の順列が異なる場合には、フィルタ条件を満たしていないと判定してもよい。

更に、発話者の発話内容と抽出された関連文書との類似度合い、すなわち、抽出された関連文書のスコア値に応じて、図４のステップＳ８０で用いられる評価値を、ステップＳ８０を実行する毎に設定し直すようにしてもよい。

例えばステップＳ７０において、関連文書の抽出に用いられるスコア値の閾値が“５０”に設定され、発話語彙の規定数Ｍが“９９”に設定されているとする。この場合、スコア値が“５０”の関連文書の各々から１００語の発話語彙が収集されれば、目標とする品質を有する辞書が作成されることになる。したがって、単純に比較すれば、発話者の発話内容との類似度合いが２倍に相当するスコア値が“１００”で発話語彙を５０語含む関連文書からも、スコア値が“５０”で発話語彙を１００語含む関連文書から作成される辞書と同程度の品質の辞書が作成されることになる。

したがって、抽出された関連文書のスコア値が異なれば、スコア値に応じて規定数Ｍを異なる値に設定してもよい。具体的には、関連文書に含まれる発話語彙の規定数Ｍ及び関連文書のスコア値に対してそれぞれ基準値を設定しておき、抽出された関連文書のスコア値が基準値より大きい場合、基準値とスコア値の差分の大きさが大きくなるに従って規定数Ｍが基準値より小さくなるように設定すればよい。逆に、抽出された関連文書のスコア値が基準値より小さい場合、基準値とスコア値の差分の大きさが大きくなるに従って規定数Ｍが基準値より大きくなるように設定すればよい。

上述したように、発話語彙の規定数Ｍは、発話者の発話内容に含まれる語彙の数に対する、抽出された関連文書に含まれる発話語彙の割合によって設定されるため、ステップＳ８０の判定基準として発話語彙の規定数Ｍの代わりに発話語彙の割合を用いてもよい。この場合、抽出された関連文書のスコア値が基準値より大きい場合、基準値とスコア値の差分の大きさが大きくなるに従って発話語彙の割合が基準割合より小さくなるように設定してもよい。逆に、抽出された関連文書のスコア値が基準値より小さい場合、基準値とスコア値の差分の大きさが大きくなるに従って発話語彙の割合が基準割合より大きくなるように設定してもよい。

なお、ステップＳ１１０において、実行中の業務のタスク構造の中にまだステップＳ４０で探索していない他のタスクが存在する場合であっても、関連文書の抽出対象となるタスクの変更回数が予め定めた回数を超えた場合には、関連文書の抽出対象となる他のタスクはこれ以上存在しないと判定してもよい。他のタスクへの変更回数に上限値を設けることで、例えば抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合であって、タスク構造に含まれるタスクの数が一定数以上ある場合に、いつまでも関連文書の抽出対象となるタスクを探索し続け、情報処理装置１０の処理が長引いてしまう状況の発生が抑制される。

このように本実施の形態に係る情報処理装置１０によれば、タスク構造によって表される業務フローに含まれる各々のタスクから抽出された関連文書に含まれる発話語彙が規定数Ｍ以下の場合、予め定められた探索規則に従って各タスクを探索する。そして、情報処理装置１０は、実行中タスクとの共通属性を規定したフィルタ条件を満たすタスクを見つけた場合、フィルタ条件を満たすタスクと対応付けられた関連文書のうち、スコア値が閾値以上の関連文書を抽出し、抽出された関連文書から語彙を収集して辞書の作成を行う。

すなわち、実行中タスクから抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合でも、関連文書の抽出範囲を実行中タスクと関連したタスクまで拡大させながら、スコア値が閾値以上の関連文書を抽出することで、発話内容に類似した語彙が効率よく収集される。

＜実施形態の変形例１＞
第１実施形態に係る情報処理装置１０では、実行中の業務のタスク構造の中から、予め設定したフィルタ条件を満たすタスクを抽出対象タスクとして設定したが、状況によっては、例えば実行中タスク以外にフィルタ条件を満たすタスクが存在せず、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えないことがある。

このような場合、フィルタ条件を変更すれば、当初のフィルタ条件は満たされないが変更後のフィルタ条件であれば条件を満たすようなタスクが存在することがあるため、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えることがある。

実施形態の変形例１では、当初のフィルタ条件によって抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合にフィルタ条件を変更することで、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えるように関連文書の抽出範囲を変更する情報処理装置１０について説明する。

図６は、本変形例においてＣＰＵ２１によって実行される情報処理の流れの一例を示すフローチャートである。図６に示す情報処理が図４に示した情報処理と異なる点は、ステップＳ１２０及びＳ１３０が追加された点であり、他の処理は図４と同じである。したがって、以降ではステップＳ１２０及びＳ１３０を中心にして、図６に示す情報処理の説明を行う。

ステップＳ１１０の判定処理で、既に実行中の業務のタスク構造に含まれる全てのタスクを探索し終わっていると判定された場合にステップＳ１２０が実行される。

この場合、ステップＳ７０で抽出された関連文書に含まれる発話語彙の数は規定数Ｍ以下であり、現在設定されているフィルタ条件を満たすタスクは、実行中の業務のタスク構造にはもう含まれていないことになる。したがって、ＣＰＵ２１は、現在設定されているフィルタ条件と異なる別のフィルタ条件を設定することを試みる。

図７は、複数のフィルタ条件を記載したフィルタ条件テーブル１６の一例を示す図である。

フィルタ条件テーブル１６は、例えば優先順位とフィルタ条件を対応付けたテーブルであり、例えば不揮発性メモリ２４に予め記憶されている。

フィルタ条件テーブル１６の優先順位は、タスク構造からタスクを抽出する際に用いるフィルタ条件の順序を示す値であり、図７の例の場合、優先順位の値が小さいほど優先順位が高い、すなわち、優先して採用されるフィルタ条件であることを示している。

具体的には、図７のフィルタ条件テーブル１６の場合、最初に「実行中タスクと同じ発話者と担当者が関与しているタスク」、次に「実行中タスクと同じ発話者が関与しているタスク」、その次に「実行中タスクと同じ担当者が関与しているタスク」という順序でフィルタ条件の採用順序が設定されていることを示している。

したがって、ステップＳ１２０において、ＣＰＵ２１はフィルタ条件テーブル１６を参照して、まだフィルタ条件として用いられていない未選択のフィルタ条件が存在するか否かを判定する。

全てのフィルタ条件が採用済みの場合には、関連文書の抽出対象となるタスクがこれ以上存在しないことになる。この場合、含まれる発話語彙の合計数が規定数Ｍ以下となる関連文書から語彙を収集しても、目標とする品質を有する辞書が作成されない場合があるため、図６に示す情報処理を終了する。

一方、フィルタ条件テーブル１６に未選択のフィルタ条件が存在する場合には、ステップＳ１３０に移行する。

この場合、タスク構造からタスクを抽出する際に用いるフィルタ条件を未選択のフィルタ条件に変更することで、実行中の業務のタスク構造の中から変更前のフィルタ条件では設定されなかった新たな抽出対象タスクが設定されることになる。すなわち、変更前のフィルタ条件における関連文書の抽出範囲とは異なる抽出範囲が設定されることになる。

したがって、ステップＳ１３０において、ＣＰＵ２１はフィルタ条件テーブル１６の優先順位に従って、未選択のフィルタ条件を新たなフィルタ条件に設定し、ステップＳ４０に移行する。

以降、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えるか、またはフィルタ条件テーブル１６から未選択のフィルタ条件が存在しなくなるまで、ステップＳ４０～Ｓ８０、及びステップＳ１１０～Ｓ１３０の処理を繰り返すことで、変更後のフィルタ条件を満たすタスクと対応付けられた関連文書から、スコア値が閾値以上となる関連文書が抽出されることになる。なお、ＣＰＵ２１は、変更前のフィルタ条件を満たすタスクと変更後のフィルタ条件を満たすタスクが同じタスクである場合、当該タスクが変更後のフィルタ条件を満たしたとしても抽出対象タスクに設定しないようにすることで、同じタスクから関連文書を重複して抽出しないようにする。以上により、図６に示した情報処理を終了する。

図７に示したフィルタ条件テーブル１６で、例えば発話者が発すると予想される言葉を規定しておき、規定した言葉を含む関連文書と対応付けられているタスクを抽出対象タスクに設定してもよい。また、図７に示したフィルタ条件テーブル１６で、例えばスコア値が閾値以上となる関連文書が対応付けられていると予想されるタスクに用いられる名前の一部を規定しておき、規定した名前を含むタスクを抽出対象タスクに設定してもよい。

しかしながら、発話者がどういった内容の話をするかを事前に予想することは困難であり、また、業務フローが異なればタスク構造も変わるため、タスク構造に含まれるタスク名も変化する。したがって、発話者の発話内容よりも、例えば年齢及び性別といった発話者や担当者に関する属性をフィルタ条件として規定することが好ましい。なお、実行中タスクと関連するタスクが予め確定しているような場合には、フィルタ条件に抽出対象タスクとなるタスク名を設定してもよい。

なお、ステップＳ１２０において、フィルタ条件テーブル１６に未選択のフィルタ条件が存在する場合であっても、フィルタ条件の変更回数が予め定めた回数を超えた場合には、変更後のフィルタ条件を満たすタスクはこれ以上存在しないとみなして、まだ未選択のフィルタ条件が存在したとしても、全てのフィルタ条件を採用したと判定してもよい。フィルタ条件の変更回数に上限値を設けることで、例えば抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合に、いつまでもフィルタ条件を変更し続け、情報処理装置１０の処理が長引いてしまう状況の発生が抑制される。

このように本実施の形態に係る情報処理装置１０によれば、実行中の業務のタスク構造に含まれるタスクから抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下となる場合、優先順位に従ってフィルタ条件を変更し、変更後のフィルタ条件を満たす新たなタスクと対応付けられた関連文書の中から、スコア値が閾値以上となる関連文書を抽出する。すなわち、関連文書の抽出範囲を予め定めた範囲に限定せずに、状況に応じて関連文書の抽出範囲を変更しながらスコア値が閾値以上となる関連文書を抽出する。

＜実施形態の変形例２＞
実施形態の変形例１では、予め設定したフィルタ条件を用いて抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下の場合、優先順位に従ってフィルタ条件を変更して、関連文書の抽出範囲を拡大する例について説明した。しかしながら、状況によっては、フィルタ条件を変更しても抽出された関連文書に含まれる発話語彙の数が規定数Ｍ以下にしかならないことがある。

このような場合、実行中の業務と同じ業務における他の事例を、関連文書の新たな検出対象に設定すれば、他の事例におけるタスク構造からフィルタ条件を満たすタスクが検出され、抽出された関連文書に含まれる発話語彙が規定数Ｍを超えることがある。

ここで「実行中の業務と同じ業務における他の事例」とは、受け付けたタスク構造によって定義された業務と同じ業務であって、受け付けた音声データで表される発話内容が発せられた事例と異なる別の事例のことである。

例えば銀行における融資業務であれば、音声データで表される発話内容が発せられた融資事例以外にも様々な融資事例があるため、音声データで表される発話内容と同じような会話が他の融資事例でも交わされることがあると考えられる。発話内容も発話が行われたタスクの関連文書としてタスクに対応付けられる。したがって、フィルタ条件を変更してもスコア値が閾値以上となる関連文書がこれ以上抽出されない実行中の業務よりも、実行中の業務と同じ業務における他の事例のタスクと対応付けられた関連文書から関連文書を抽出した方が、発話者が用いる傾向が高い語彙が得られる場合がある。

実施形態の変形例２では、実行中の業務と同じ業務における他の事例のタスクと対応付けられた関連文書から関連文書を抽出することで、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えるように関連文書の抽出範囲を変更する情報処理装置１０について説明する。

図８は、本変形例においてＣＰＵ２１によって実行される情報処理の流れの一例を示すフローチャートである。図８に示す情報処理が図６に示した情報処理と異なる点は、ステップＳ１４０及びＳ１５０が追加された点であり、他の処理は図６と同じである。したがって、以降ではステップＳ１４０及びＳ１５０を中心にして、図８に示す情報処理の説明を行う。

ステップＳ１２０の判定処理で、フィルタ条件テーブル１６に規定される全てのフィルタ条件が採用済みであると判定された場合、ステップＳ１４０が実行される。

ステップＳ１４０において、ＣＰＵ２１は、業務毎の各事例を記憶した記憶装置に、後述するステップＳ１５０でまだ関連文書の抽出対象として設定されていない事例で、かつ、実行中の業務と同じ業務における他の事例が存在するか否かを判定する。記憶装置は、不揮発性メモリ２４であっても、情報処理装置１０と異なる図示しない外部装置の記憶装置であってもよい。

図９は、図２に示したタスク構造によって表される業務と同じ業務における他の事例の一例を示す図である。

各々の事例には事例を一意に表す事例ＩＤが付与されており、関連文書の抽出対象となっていた事例（以降、「実行中の事例」という）の事例ＩＤとの差分が大きくなるに従って、実行中の事例から見て発生時間が離れた事例であることを表している。すなわち、事例ＩＤの差分が小さくなるほど、実行中の事例が発生した発生時間からの間隔が短い事例であることを表している。

図９において、例えば事例ＩＤが“０００２”で表される事例を実行中の事例とし、タスクβを実行中タスクとする。

他の事例が存在するか否かを判定する場合、ＣＰＵ２１は単に実行中の事例以外の事例が存在するか否かを判定するのではなく、実行中タスクと同じ処理のタスクが含まれている事例であって、実行中タスクと同じ処理のタスクが実行中タスクと同じ属性を有する事例が存在するか否かを判定する。すなわち、ＣＰＵ２１は、他の事例に実行中タスクと同じ処理のタスクが含まれ、当該タスクが実行中タスクと同じ属性である場合に他の事例が存在すると判定する。実行中タスクと同じ処理のタスクが含まれているか否かは、例えば実行中タスクと同じ名前のタスクが含まれるか否かによって判定すればよい。

他の事例か否かを判定するために用いる実行中タスクの属性の設定に制約はないが、発話者に関する属性、例えば発話者が同じであるといった属性を設定することが好ましい。これは、発話者が同じ事例であれば、発話者が異なる事例より、発話者が用いる傾向が高い語彙が収集されやすくなるためである。

図９の例の場合、事例ＩＤが「０００３」で表される事例と、事例ＩＤが「０００５」で表される事例における各々のタスクβの発話者が、実行中の事例におけるタスクβの発話者と同じ「発話者Ａ」である。したがって、ＣＰＵ２１は、実行中の業務と同じ業務における他の事例が存在すると判定してステップＳ１５０に移行する。

ステップＳ１５０において、ＣＰＵ２１は、ステップＳ１４０で存在を確認した他の事例を関連文書の新たな抽出対象の事例に設定して、ステップＳ３０に移行する。なお、図９に示した例のように、他の事例が複数存在する場合、ＣＰＵ２１は何れか１つの他の事例を関連文書の新たな抽出対象の事例に設定する。この場合、ＣＰＵ２１は複数の他の事例のうち、実行中の事例の発生時間からの間隔が最も短い事例から順に、関連文書の新たな抽出対象の事例として設定する。

ステップＳ３０では、ステップＳ１５０で設定された新たな事例のタスク構造からタスク順序列が生成される。したがって、ＣＰＵ２１は、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えるか、または実行中の業務と同じ業務における他の事例が存在しなくなるまでステップＳ３０～Ｓ８０及びステップＳ１１０～Ｓ１５０を繰り返すことで、他の事例に含まれるタスクのうち、フィルタ条件を満たすタスクと対応付けられた関連文書から、スコア値が閾値以上となる関連文書が抽出されることになる。なお、関連文書の抽出対象となる事例が変更されると、フィルタ条件テーブル１６における何れのフィルタ条件も未選択にリセットされ、また優先順位が“１”のフィルタ条件から順に選択される。

一方、ステップＳ１４０の判定処理で実行中の業務と同じ業務における他の事例が存在しないと判定された場合には、他の事例に含まれるタスクと対応付けられた関連文書を参照しても規定数Ｍを超える発話語彙は収集されないことになる。したがって、図８に示す情報処理を終了する。

なお、ステップＳ１４０において、関連文書の抽出対象に設定していない他の事例が存在する場合であっても、関連文書の抽出対象を他の事例へ変更した変更回数が予め定めた回数を超えた場合には、これ以上、関連文書の抽出対象となる他の事例は存在しないと判定してもよい。他の事例への変更回数に上限値を設けることで、例えば抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えない場合に、いつまでも関連文書の抽出対象となる事例を変更し続け、情報処理装置１０の処理が長引いてしまう状況の発生が抑制される。

本変形例では、実行中の業務と同じ業務における他の事例を関連文書の抽出対象に設定する例について説明したが、他の事例は必ずしも実行中の業務と同じ業務の事例である必要はない。

発話者が特定のタスクで用いる語彙は、業務の種類が異なっている場合であっても同じタスクであれば同じような傾向を示し、発話者が同じであればその傾向は更に強くなる。したがって、実行中の業務と異なる業務であったとしても、業務のタスク構造に実行中タスクと同じタスク名が含まれる業務であれば、当該業務の事例を関連文書の抽出対象として設定してもよい。

なお、図４、図６、及び図８のステップＳ８０では、抽出された関連文書に含まれる発話語彙の数が規定数Ｍを超えたか否かを判定したが、代わりに抽出された関連文書の数が規定数Ｌを超えたか否かを判定するようにしてもよい。

以上、実施の形態を用いて本発明について説明したが、本発明は実施の形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で実施の形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。例えば本発明の要旨を逸脱しない範囲で処理の順序を変更してもよい。

また、実施の形態では、一例として情報処理をソフトウエアで実現する形態について説明したが、図４、図６、及び図８に示したフローチャートと同等の処理を、例えばＡＳＩＣ(Application Specific Integrated Circuit)に実装し、ハードウエアで処理させるようにしてもよい。この場合、情報処理をソフトウエアで実現した場合と比較して、処理の高速化が図られる。

また、上述した実施の形態では、情報処理プログラムがＲＯＭ２２にインストールされている形態を説明したが、これに限定されるものではない。本発明に係る情報処理プログラムは、コンピュータで読み取り可能な記憶媒体に記録された形態で提供することも可能である。例えば、本発明に係る情報処理プログラムを、ＣＤ(Compact Disc)－ＲＯＭ、またはＤＶＤ(Digital Versatile Disc)－ＲＯＭ等の光ディスクに記録した形態で提供してもよい。また、本発明に係る情報処理プログラムを、ＵＳＢ(Universal Serial Bus)メモリ及びフラッシュメモリ等の半導体メモリに記録した形態で提供してもよい。更に、図示しない通信回線に接続される図示しない外部装置から、通信ユニット２７を経由して本発明に係る情報処理プログラムを取得するようにしてもよい。

１０情報処理装置
１１受付部
１２仮認識部
１３抽出部
１４設定部
１５収集部
１６フィルタ条件テーブル
２０コンピュータ
２１ＣＰＵ
２２ＲＯＭ
２３ＲＡＭ
２４不揮発性メモリ
２５Ｉ／Ｏ
２６バス
２７通信ユニット
２８入力ユニット
２９表示ユニット
１３１類似度判定部

Claims

発話者の発話内容、前記発話者によって発話が行われた、複数の処理単位から構成される業務の処理構造、及び前記処理構造における実行中の処理単位を受け付ける受付部と、
前記受付部で受け付けた前記実行中の処理単位を含む少なくとも１つの処理単位と予め対応付けられた関連文書の中から、前記受付部で受け付けた前記発話者の発話内容との類似度合いが閾値以上となる文章を含む関連文書を抽出する抽出部と、
前記抽出部で抽出された関連文書に含まれる語彙の数が、前記発話者の発話内容に含まれる語彙の数に対して設定された数以下しか含まれない場合に、前記受付部で受け付けた前記処理構造に従って、前記抽出部が次に関連文書を抽出する処理単位を設定する設定部と、
を備えた情報処理装置。
前記設定部は、前記実行中の処理単位との共通属性を規定した適合条件を満たす処理単位が検出されるまで、前記処理構造に従って処理単位を順次選択し、前記適合条件を満たす処理単位を、前記抽出部が次に関連文書を抽出する処理単位に設定する
請求項１記載の情報処理装置。
前記適合条件が、前記実行中の処理単位で発話した前記発話者、及び前記実行中の処理単位の処理に関与する関与者の少なくとも一方と同じであると規定された
請求項２記載の情報処理装置。
前記適合条件に規定された前記発話者及び前記関与者の少なくとも一方が、更に複数人として規定された
請求項３記載の情報処理装置。
前記設定部は、前記抽出部で前記適合条件を満たす処理単位に対応付けられた関連文書から抽出された関連文書に含まれる語彙の数が前記設定された数以下である場合、前記処理構造に従って処理単位を順次選択し、規定内容を変更した変更後の前記適合条件を満たす処理単位を、前記抽出部が次に関連文書を抽出する処理単位に設定する
請求項２～請求項４の何れか１項に記載の情報処理装置。
前記設定部は、前記適合条件の変更回数が予め定めた回数を超えた場合、前記処理構造に変更後の前記適合条件を満たす処理単位が存在しないと設定する
請求項５記載の情報処理装置。
前記設定部は、前記抽出部で変更後の前記適合条件を満たす処理単位に対応付けられた関連文書から抽出された関連文書を含む、抽出された各々の関連文書に含まれる語彙の数が前記設定された数以下である場合、実行中の処理単位を含む前記処理構造で表される業務と同じ業務の他の事例を、関連文書の新たな検出対象に設定する
請求項５または請求項６記載の情報処理装置。
前記設定部は、前記発話者が発話した記録が対応付けられている前記他の事例のうち、関連文書の抽出対象となった事例の発生時間からの間隔が最も短い事例から順に、関連文書の新たな抽出対象に設定する
請求項７記載の情報処理装置。
前記設定部は、前記適合条件を満たす処理単位の新たな検出対象となる前記他の事例への変更回数が予め定めた回数を超えた場合、前記適合条件を満たす処理単位の新たな検出対象を設定しないようにする
請求項７または請求項８記載の情報処理装置。
前記設定部は、前記発話者の発話内容と前記抽出部で抽出された関連文書との類似度合いに応じて前記設定された数を設定する
請求項１～請求項９の何れか１項に記載の情報処理装置。
前記設定部は、前記発話者の発話内容と前記抽出部で抽出された関連文書との類似度合いが高くなるに従って、前記設定された数が少なくなるように設定する
請求項１０記載の情報処理装置。
コンピュータを、請求項１～請求項１１の何れか１項に記載の情報処理装置の各部として機能させるための情報処理プログラム。