JP7475844B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7475844B2
JP7475844B2 JP2019214360A JP2019214360A JP7475844B2 JP 7475844 B2 JP7475844 B2 JP 7475844B2 JP 2019214360 A JP2019214360 A JP 2019214360A JP 2019214360 A JP2019214360 A JP 2019214360A JP 7475844 B2 JP7475844 B2 JP 7475844B2
Authority
JP
Japan
Prior art keywords
word
keyword
unit
similarity
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019214360A
Other languages
English (en)
Other versions
JP2021086362A (ja
Inventor
由美 市村
健弘 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2019214360A priority Critical patent/JP7475844B2/ja
Priority to CN202080082266.9A priority patent/CN114746862A/zh
Priority to PCT/JP2020/044012 priority patent/WO2021107006A1/ja
Publication of JP2021086362A publication Critical patent/JP2021086362A/ja
Priority to US17/663,359 priority patent/US20220270589A1/en
Application granted granted Critical
Publication of JP7475844B2 publication Critical patent/JP7475844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は情報処理装置、情報処理方法及びプログラムに関する。
例えば音声対話を利用して、音声認識された文章から項目値を検出し、フォームデータに含まれるスロット(項目欄)に項目値を入力する技術が従来から知られている。
特許第5796496号公報 特開2018-45460号公報 特開平7-73200号公報 特許第3361563号公報 特開2002-269115号公報
しかしながら、従来の技術では、あらかじめ定義された項目名と一致する表現がない場合、項目値を設定するスロットを特定することが難しかった。
実施形態の情報処理装置は、第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する分割部と、前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出する検出部と、を備える。前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる。
図1は第1実施形態の情報処理装置の機能構成の例を示す図である。 図2は第1実施形態の抽出部の動作例を示すフローチャートである。 図3は第1実施形態の検出部の動作例を示すフローチャートである。 図4は第1実施形態の検出部の処理結果の例を示す図である。 図5は第2実施形態の情報処理装置の機能構成の例を示す図である。 図6は第2実施形態の類語辞書の例を示す図である。 図7は第2実施形態の抽出部の動作例を示すフローチャートである。 図8は第3実施形態の情報処理装置の機能構成の例を示す図である。 図9Aは第3実施形態の項目名データベースの例1を示す図である。 図9Bは第3実施形態の項目名データベースの例2を示す図である。 図10は第3実施形態の推定部の動作例を示すフローチャートである。 図11は第3実施形態の応答文テンプレートの例を示す図である。 図12は第3実施形態の通知部の動作例を示すフローチャートである。 図13は第1乃至第3実施形態の情報処理装置のハードウェア構成の例を示す図である。
以下に添付図面を参照して、情報処理装置、情報処理方法及びプログラムの実施形態を詳細に説明する。
(第1実施形態)
はじめに、音声対話を利用して、音声認識された文章から項目値を検出し、フォームデータに含まれるスロット(項目欄)に項目値を入力する場合の例について説明する。
例えば、音声対話を利用して、以下のような3つのスロットを持つフォームデータに項目値を入力することを考える。括弧の中はそれぞれの項目のデータ型を示している。
訪問先(会社名型)
訪問日(日付型)
次回訪問日(日付型)
音声入力する場合、システムに不慣れであれば、
SYS:「商談レポートの入力を開始します。訪問先を入力してください。」
USR:「ABC商事です。」
SYS:「訪問日を入力してください。」
USR:「8月21日です。」
SYS:「次回訪問日を入力してください。」
USR:「9月11日です。」
のように、システムのガイダンスに従って、1項目ずつ入力していくインタフェースが分かりやすい。この方法だと、システムがスロット(訪問先、訪問日又は次回訪問日)を指定しているので、ユーザ発話から項目名を特定する必要がない。
一方、使い慣れてくるとこのようなガイダンスは煩わしく、
SYS:「商談レポートを入力してください。」
USR:「訪問した会社はABC商事で、訪問した日は8月21日、次の訪問日は9月11日です。」
のように、複数のスロットをまとめて話して入力できる方が便利である。
もし、フォームデータが、同じデータ型のスロットを複数含んでいなければ、データ型を手がかりにして、スロットに項目値を入力することが可能である。例えば、フォームデータが「訪問先」及び「訪問日」の2つのスロットで構成されており、ユーザが「訪問した会社はABC商事で、訪問した日は8月21日です。」と発話したとする。例えば固有表現抽出技術を用いて「ABC商事」は会社名型、「8月21日」は日付型であることがわかる。そのため、会社名型である「ABC商事」は訪問先スロット、日付型である「8月21日」は訪問日スロットに入れるというように、項目名ではなくデータ型を手がかりにして、どのスロットに入れるべきか判断できる。
しかし、日付型として「訪問日」及び「次回訪問日」の2つのスロットがあったとすると、「8月21日」を訪問日スロットに入れるべきか、次回訪問日スロットに入れるべきかをシステムが判断できない。このように、システムがスロットを指定していない場合、ユーザ発話から項目名を特定する必要があるケースが生じる。
このとき、「訪問先」、「訪問日」及び「次回訪問日」のように、スロット定義で指定された表現を使ってユーザが発話した場合は、項目名とスロットとの照合は容易である。しかし、「訪問した会社」、「訪問した日」及び「次の訪問日」のように、スロット定義で指定されていない表現を使ってユーザが発話した場合は、スロットを特定するのが困難になる。
一般に、スロット定義はレポートのフォームを作成する管理者が行うもので、ユーザはどのような表現で項目名がスロットに定義されているかまで把握していない。また、スロット定義の際は、書き言葉である漢語的な表現が使われやすく、発話の際は、話し言葉である口語的な表現が使われやすい。したがって、発話中の項目名との不一致は頻繁に起こりうるものである。
このような課題に対して、管理者がスロットを定義する際に、項目名の言い換え表現を登録する方法が考えられる。しかし、「次回訪問日」に対して「次の訪問日」、「次に訪問する日」、「次回の訪問予定日」又は「次に訪問予定の日」と言い換えるかもしれないなどと、様々なユーザがどんな言い方をするかを想定して漏れなくリストアップすることは不可能である。
また、シソーラスを用いる方法や、インターネット上の大量の言語資源から統計的処理に基づき類似表現を得る方法も考えられる。しかし、そのような汎用なデータから、目的に応じて定義されるフォームデータに必要な言い換え表現が得られるとは限らない。
以下、発話中にあらかじめ定義した項目名と一致する表現がない場合でも、項目名の言い換え表現を準備することなく、発話から類似の表現を検出してスロットを特定可能にする第1実施形態の検出装置について説明する。
以下、図面を参照しながら説明する。
[機能構成の例]
図1は第1実施形態の情報処理装置10の機能構成の例を示す図である。第1実施形態の情報処理装置10は、分割部101、抽出部102及び検出部103を備える。
なお、第1実施形態の情報処理装置10は、例えば、メモリ、磁気ディスク及び光ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。
分割部101は、第1のキーワード及び文章を受け付ける。第1のキーワードは、例えば外回り営業や保守・点検業務の報告等に使用されるフォームデータに含まれるスロット(項目欄)の名称(項目名)を示す。文章は、例えばユーザの発話を音声認識することによって取得される。なお、音声認識は、情報処理装置10で行われてもよい。例えば、分割部101で音声認識が行われる場合、分割部101はユーザの発話を受け付け、当該発話から文章を認識する。
分割部101は、第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する。
例えば、第1のキーワードが、「訪問日」であり、文章が、「訪問した日は8月21日です。」の場合、第1の単語は、「訪問」及び「日」である。また、第2の単語は、「訪問」、「し」、「た」、「日」、「は」、「8」、「月」、「21」、「日」「です」及び「。」である。
単語への分割は、例えば形態素解析により実現できるが、必ずしも形態素単位に分割する必要はない。例えば、分割部101は、第1のキーワード及び文章をN文字ごとに分割したり、文字種や特定記号を区切りとして分割したりしてもよい。
抽出部102は、第1のキーワードの先頭の第1の単語と一致する第2の単語を先頭に含む単語列、及び、第1のキーワードの末尾の第1の単語と一致する第2の単語を末尾に含む単語列の少なくとも一方を、文章から抽出する。
例えば、第1のキーワードが、「訪問日」であり、文章が、「訪問した日は8月21日です。」の場合、第1のキーワードの先頭の第1の単語と一致する第2の単語を先頭に含む単語列は、「訪問」、「訪問し」、「訪問した」及び「訪問した日」等であり、第1のキーワードの末尾の第1の単語と一致する第2の単語を末尾に含む単語列は、「日」、「た日」、「した日」及び「訪問した日」等である。
第1のキーワードの先頭単語や末尾単語に注目することにより、第1のキーワードに類似しそうな文字列に限定できるので、文字列の組み合わせ数を抑えることができる。抽出部102の処理の詳細については後述する。
検出部103は、抽出された単語列と第1のキーワードとの文字の類似性を示す文字類似度、及び、抽出された単語列の構成と第1のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第2のキーワードを検出する。文字の類似性だけでなく、構成の類似性も考慮することにより、第2のキーワードとして、より適切なキーワードを検出することができる。検出部103の処理の詳細については後述する。
[抽出部の動作例]
図2は第1実施形態の抽出部102の動作例を示すフローチャートである。はじめに、抽出部102が、分割部101から、第1の単語に分割された第1のキーワード、及び、第2の単語に分割された文章を受け付ける(ステップS201)。
次に、抽出部102は、抽出される単語列の最大単語数を変数MAXにセットする(ステップS202)。
次に、抽出部102は、上述の第1のキーワードの先頭の第1の単語を変数S_WORDにセットする(ステップS203)。
次に、抽出部102は、変数S_WORDに一致する第2の単語の位置を変数Sにセットする(ステップS204)。
次に、抽出部102は、変数iに初期値0をセットする(ステップS205)。次に、抽出部102は、i<MAXであるか否かを判定する(ステップS206)。
i<MAXである場合(ステップS206,Yes)、抽出部102は、文章中のS番目から(S+i)番目までの単語列を取得する(ステップS207)。次に、抽出部102は、iを1インクリメントし(ステップS208)、ステップS206の処理に戻る。
i<MAXでない場合(ステップS206,No)、処理はステップS209に進む。
次に、抽出部102は、上述の第1のキーワードの末尾の第1の単語を変数E_WORDにセットする(ステップS209)。
次に、抽出部102は、変数E_WORDに一致する第2の単語の位置を変数Eにセットする(ステップS210)。
次に、抽出部102は、変数iに初期値0をセットする(ステップS211)。次に、抽出部102は、i<MAXであるか否かを判定する(ステップS212)。
i<MAXである場合(ステップS212,Yes)、抽出部102は、文章中の(E-i)番目からE番目までの単語列を取得する(ステップS213)。次に、抽出部102は、iを1インクリメントし(ステップS214)、ステップS212の処理に戻る。
i<MAXでない場合(ステップS212,No)、処理を終了する。
なお、上述のステップS204において、文章中でS_WORDに一致する第2の単語が複数個存在する場合は、すべての位置を変数Sにセットし、それぞれのSに対してステップS205からステップS208までの処理を繰り返す。
同様に、ステップS210において、文章中でE_WORDに一致する第2の単語が複数個存在する場合は、すべての位置を変数Eにセットし、それぞれのEに対してステップS211からステップS214までの処理を繰り返す。
<抽出処理の具体例>
例えば、抽出部102が、つぎの文章及び第1のキーワードを、分割部101から受け付けたとする。なお/は、文章の分割例を示す。
文章:「訪問/し/た/日/は/8/月/21/日/です/。」
第1のキーワード:「訪問/日」
取得される単語列の最大単語数を7と指定すると(MAX=7)、抽出部102の処理により、つぎの11個の単語列が得られる。
「訪問」
「訪問し」
「訪問した」
「訪問した日」
「訪問した日は」
「訪問した日は8」
「訪問した日は8月」
「日」
「た日」
「した日」
「訪問した日」
[検出部の動作例]
図3は第1実施形態の検出部103の動作例を示すフローチャートである。はじめに、検出部103が、抽出部102から、第1のキーワード及び単語列を受け付ける(ステップS301)。
次に、検出部103は、ステップS301で複数の単語列を受け付けた場合は、重複する単語列を削除した後、単語列の数を変数Nにセットする(ステップS302)。次に、検出部103は、変数iに初期値1をセットする(ステップS303)。
次に、検出部103は、i≦Nであるか否かを判定する(ステップS304)。i≦Nである場合(ステップS304,Yes)、検出部103は、i番目の単語列と、第1のキーワードとの文字類似度を計算する(ステップS305)。
文字類似度は、文字の類似性を示す。文字類似度は、例えば、コサイン類似度やレーベンシュタイン距離を利用して求めることができる。ただし、類似度は値が大きいほど類似性が高いことを意味する。なお、距離は値が大きいほど類似性が低いことを意味することから、距離を利用する場合はその逆数を用いる、又は、0~1の間に収まるように標準化して1から減算するなどして、値が大きいほど類似性が高いことを意味する数値に変換して利用する。
次に、検出部103は、i番目の単語列の構成と、第1のキーワードの構成との類似性を示す構成類似度を計算する(ステップS306)。
構成類似度は、例えば、単語列に含まれる第2の単語のうち、第1の単語と一致する第2の単語の数に基づいて定められる。例えば、「訪問し」という単語列は、第1のキーワードを構成する第1の単語と一致する第2の単語「訪問」を含むことから、構成類似度は1になる。同様に「訪問した日は」という文字列は、第1のキーワードを構成する第1の単語と一致する第2の単語「訪問」及び「日」を含むことから、構成類似度は2になる。
次に、検出部103は、文字類似度及び構成類似度の少なくとも一方に基づいて、i番目の単語列の総合類似度を計算する(ステップS307)。
総合類似度は、例えば、つぎの式(1)で求めることができる。総合類似度をSim、文字類似度をSim_chr、構成類似度をSim_comとし、αとβは、0≦α≦1、0≦β≦1を満たす係数とする。
Sim=α×Sim_chr + β×Sim_com ・・・(1)
次に、検出部103は、iを1インクリメントし(ステップS308)、ステップS304の処理に戻る。
i≦Nでない場合(ステップS304,No)、検出部103は、総合類似度に基づいて第2のキーワードを検出する(ステップS309)。
図4は第1実施形態の検出部103の処理結果の例を示す図である。図4の例では、総合類似度は式(1)において、α=1、β=1として算出した値になっている。この例では、「訪問した日」という単語列の総合類似度が2.75と最も高い。この場合、検出部103は、例えば「訪問した日」という単語列を第2のキーワードとして検出する。
以上、説明したように、第1実施形態の情報処理装置10では、分割部101が、第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する。抽出部102が、第1のキーワードの先頭の第1の単語と一致する第2の単語を先頭に含む単語列、及び、第1のキーワードの末尾の第1の単語と一致する第2の単語を末尾に含む単語列の少なくとも一方を、文章から抽出する。そして、検出部103が、単語列と第1のキーワードとの文字の類似性を示す文字類似度、及び、単語列の構成と第1のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第2のキーワードを検出する。
これにより第1実施形態の情報処理装置10によれば、あらかじめ定義された項目名と一致する表現がない場合でも、項目値を設定するスロットを特定することができる。例えば、項目名の言い換え表現を準備することなく、発話から類似の表現を検出してスロットを特定することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図5は第2実施形態の情報処理装置10-2の機能構成の例を示す図である。第2実施形態の情報処理装置10-2は、分割部101、抽出部102-2、検出部103、記憶部104及び検索部105を備える。
図5において、図1と同一部分には同一符号を付与し、異なる部分について説明する。図5では、記憶部104及び検索部105を新たに備え、抽出部102に代わって抽出部102-2を備えている。
記憶部104は、類語辞書を記憶する。類語辞書は、ユーザ毎、フォームデータ(レポート)毎に用意されていてもよい。
図6は第2実施形態の類語辞書の例を示す図である。第1の単語に類似する類語がある場合には、例えば図6のように、第1の単語毎に類語が登録される。
検索部105は、類語辞書を用いて、第1の単語に類似する類語を検索する。検索部105は、例えば第1のキーワードの先頭の第1の単語に類似する類語、及び、第1のキーワードの末尾の第1の単語に類似する類語を検索する。例えば、第1のキーワードが「訪問日」である場合、先頭の第1の単語「訪問」の類語として「訪れる」「訪ねる」「訪う」が検索され、末尾の第1の単語「日」の類語として「日付」「日にち」「日時」が検索される。
抽出部102-2は、第1のキーワードの先頭の第1の単語に類似する類語と一致する第2の単語を先頭に含む単語列、及び、第1のキーワードの末尾の前記第1の単語に類似する類語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、文章から更に抽出する。
[抽出部の動作例]
図7は第2実施形態の抽出部102-2の動作例を示すフローチャートである。はじめに、抽出部102が、分割部101から、第1の単語に分割された第1のキーワード、及び、第2の単語に分割された文章を受け付け、検索部105から、類語辞書検索結果を受け付ける(ステップS401)。
図7の例では、類語辞書検索結果は、第1のキーワードの先頭の第1の単語に類似する類語、及び、第1のキーワードの末尾の第1の単語に類似する類語を含む。
次に、抽出部102-2は、抽出される単語列の最大単語数を変数MAXにセットする(ステップS402)。
次に、抽出部102-2は、上述の第1のキーワードの先頭の第1の単語、及び、当該第1の単語の類語を変数S_WORDSにセットする(ステップS403)。
次に、抽出部102-2は、S_WORDSにセットされた単語(第1の単語、及び、第1の単語の類語)の数を変数Nにセットする(ステップS404)。
次に、抽出部102-2は、変数jに初期値1をセットする(ステップS405)。次に、抽出部102-2は、j≦Nであるか否かを判定する(ステップS406)。
j≦Nである場合(ステップS406,Yes)、抽出部102-2は、S_WORDSにセットされたj番目の単語に一致する第2の単語の位置を変数Sにセットする(ステップS407)。
ステップS408~ステップS411は、第1実施形態のステップS205~ステップS208の処理(図2参照)と同様なので説明を省略する。
i<MAXでない場合(ステップS409,No)、抽出部102-2は、jを1インクリメントし(ステップS412)、ステップS406の処理に戻る。
j≦Nでない場合(ステップS406,No)、抽出部102-2は、上述の第1のキーワードの末尾の第1の単語、及び、当該第1の単語の類語を変数E_WORDSにセットする(ステップS413)。
次に、抽出部102-2は、E_WORDSにセットされた単語(第1の単語、及び、第1の単語の類語)の数を変数Nにセットする(ステップS414)。
次に、抽出部102-2は、変数jに初期値1をセットする(ステップS415)。次に、抽出部102-2は、j≦Nであるか否かを判定する(ステップS416)。
j≦Nである場合(ステップS416,Yes)、抽出部102-2は、S_WORDSにセットされたj番目の単語に一致する第2の単語の位置を変数Eにセットする(ステップS417)。
ステップS418~ステップS421は、第1実施形態のステップS211~ステップS214の処理(図2参照)と同様なので説明を省略する。
i<MAXでない場合(ステップS419,No)、抽出部102-2は、jを1インクリメントし(ステップS422)、ステップS416の処理に戻る。
j≦Nでない場合(ステップS416,No)、処理を終了する。
なお、抽出部102-2は、ステップS407及びステップS417で一致する単語を探す際、活用する単語の場合は、原形同士を比較する。
<抽出処理の具体例>
例えば、抽出部102が、つぎの文章及び第1のキーワードを、分割部101から受け付けたとする。なお/は、文章の分割例を示す。
文章:「訪れ/た/日にち/は/8/月/21/日/です/。」
第1のキーワード:「訪問/日」
文章は、第1のキーワードの先頭単語「訪問」も末尾単語「日」も含まない。しかし、それぞれの類語である「訪れる」及び「日にち」を含むので、抽出部102-2の処理により、「訪れた日にち」という単語列が検出される。この抽出結果を利用すると、検出部103の処理により、「訪れた日にち」が第2のキーワードとして検出される。
第2実施形態の情報処理装置10-2によれば、類語辞書を用いることにより、あらかじめ定義された項目名と一致する表現がない場合でも、項目値を設定するスロットを特定する処理の性能を更に向上させることができる。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図8は第3実施形態の情報処理装置10-3の機能構成の例を示す図である。第3実施形態の情報処理装置10-3は、分割部101、抽出部102、検出部103、項目名データベース106、推定部107、通知部108及び登録部109を備える。
図8において、図1と同一部分には同一符号を付与し、異なる部分について説明する。図8では、項目名データベース106、推定部107、通知部108及び登録部109を新たに備えている。分割部101、抽出部102及び抽出部103は、推定部107のサブプロセスとして動作する。第3実施形態における入力は文章のみであり、項目名データベース106に登録されている全項目名が図1における第1のキーワードに相当する。
項目名データベース106は、項目名と、項目名の言い換え表現とを関連付けて記憶する。項目名データベース106は、ユーザ毎、フォームデータ(レポート)毎に用意されていてもよい。
<項目名データベースの例>
図9Aは第3実施形態の項目名データベースの例1を示す図である。図9Bは第3実施形態の項目名データベースの例2を示す図である。項目名データベース106は、項目名、データ型及び言い換え表現を含む。項目名は、フォームデータに含まれる項目名を示す。データ型は、項目名により識別されるスロット(項目欄)に入力されるデータのデータ型を示す。言い換え表現は、項目名の言い換え表現を示す。項目名とデータ型は必須であり、言い換え表現は空欄(図9A)でもよい。
図8に戻り、説明を続ける。推定部107は、分割部101、抽出部102及び検出部103を、例えばサブプロセスとして起動して、項目名データベース106に格納される項目名に対応する第2のキーワードを文章から検出し、項目名を推定する。推定部107の処理の詳細については後述する。
通知部108は、推定部107の処理結果をユーザに通知する。通知部108の処理の詳細については後述する。
登録部109は、推定部107及び通知部108の処理結果に基づき、検出された第2のキーワードを項目名データベース106に登録する。キーワード登録部109の処理の詳細については後述する。
[推定部の動作例]
図10は第3実施形態の推定部107の動作例を示すフローチャートである。はじめに、推定部107が、文章を受け付け、項目名データベース106から項目名と言い換え表現とを読み出す(ステップS501)。推定部107は、例えばユーザの発話から音声認識された文章を受け付ける。
次に、推定部107は、項目名の数を変数Nにセットする(ステップS502)。次に、推定部107は、変数iに初期値1をセットする(ステップS503)。
次に、推定部107は、i≦Nであるか否かを判定する(ステップS504)。
i≦Nである場合(ステップS504,Yes)、推定部107は、i番目の項目名を変数SLOTNAMEにセットする(ステップS505)。
次に、推定部107は、i番目の項目名について、文章中に項目名又はその言い換え表現に一致する箇所(第2の単語)があるか否かを判定する(ステップS506)。
一致する箇所がある場合(ステップS506,Yes)、推定部107は、応答文テンプレートのテンプレート名にdeterminedをセットし、ステップS514に進む。
ここで、応答文テンプレートについて説明する。
<応答文テンプレートの例>
図11は第3実施形態の応答文テンプレートの例を示す図である。応答文テンプレートは、テンプレート名及び応答文を含む。応答文の$と$で囲まれた文字列は、推定部107によりセットされる変数を示す。例えば、SECONDKEYに「訪問した日」、SLOTNAMEに「訪問日」がセットされていると、テンプレート名「confirm」の応答文は、「訪問した日とは訪問日のことでしょうか?」となる。
図10に戻り、推定部107の処理動作の説明を続ける。
一致する箇所がない場合(ステップS506,No)、推定部107は、分割部101、抽出部102及び検出部103を起動し、i番目の項目名に対応する第2のキーワードを検出する(ステップS509)。
次に、推定部107は、i番目の項目名について、文章中から第2のキーワードが検出されたか否かを判定する(ステップS510)。
第2のキーワードが検出された場合(ステップS510,Yes)、推定部107は、第2のキーワードを変数SECONDKEYにセットする(ステップS512)。次に、推定部107は、応答文テンプレートのテンプレート名にconfirmをセットし(ステップS513)、ステップS514に進む。
第2のキーワードが検出されなかった場合(ステップS510,No)、推定部107は、iを1インクリメントし(ステップS511)、ステップS504の処理に戻る。
i≦Nでない場合(ステップS504,No)、推定部107は、応答文テンプレートのテンプレート名にstartをセットし(ステップS508)、ステップS514に進む。
ステップS514の処理に進んだ場合、推定部107は、テンプレート名、SLOTNAME、SECONDKEYを渡して、通知部108を起動する。
[通知部の動作例]
図12は第3実施形態の通知部108の動作例を示すフローチャートである。はじめに、通知部108が、上述のステップS514の推定部107の処理で指定されたテンプレート名で応答文を生成し、当該応答文をユーザに提示する(ステップS601)。
次に、通知部108は、テンプレート名がconfirmか否かを判定する(ステップS602)。
テンプレート名がconfirmである場合(ステップS602,Yes)、通知部108は、ユーザからの応答を受け付ける(ステップS603)。
次に、通知部108は、ユーザからの応答が肯定的であるか否かを判定する(ステップS604)。肯定的であるかどうかの判定は、例えば、ユーザの発話に「はい」「いいえ」のような特定のキーワードが含まれるかどうかで判定される。また例えば、肯定的であるかどうかの判定は、「OK」「NG」ボタンのようなユーザインタフェースで選択してもらうなどで実現できる。
応答が肯定的である場合(ステップS604,Yes)、通知部108は、テンプレート名にdeterminedをセットし、ステップS601に戻る(ステップS605)。応答が肯定的でない場合(ステップS604,No)、通知部108は、テンプレート名にnot_determinedをセットし、ステップS601に戻る(ステップS606)。
テンプレート名がconfirmでない場合(ステップS602,No)、通知部108は、テンプレート名がdeterminedであるか否かを判定する(ステップS607)。
テンプレート名がdeterminedである場合(ステップS607,Yes)、通知部108は、登録部109を起動する(ステップS608)。テンプレート名がdeterminedでない場合(ステップS607,No)、処理は終了する。
<通知処理の具体例>
例えば、項目名データベース106に図9Aのような情報が格納されているときに、つぎの文章が、情報処理装置10-3の入力として与えられたとする。なお/は、文章の分割例を示す。
文章:「訪問/し/た/日/は/8/月/21/日/です/。」
文章中には「訪問先」、「訪問日」及び「次回訪問日」のいずれの項目名とも一致する箇所(第2の単語)はない。分割部101、抽出部102及び検出部103の処理により、項目名「訪問日」に対応する第2のキーワード「訪問した日」が検出される。推定部107の処理により、
SLOTNAME=訪問日
SECONDKEY=訪問した日
テンプレート名=confirm
がセットされて、通知部108が起動される。
通知部108の処理により、
「訪問した日とは訪問日のことでしょうか?」
という応答文が生成されて、ユーザに提示される。
通知部108は、ユーザから「はい」等の肯定的な応答を受け付けると、
テンプレート名=determined
をセットし、「訪問日に入力します。」という応答文をユーザに提示する。
さらに、登録部109の処理により、項目名「訪問日」の言い換え表現として「訪問した日」が項目名データベース106に登録される。その結果、項目名データベース106は図9Bのように更新される。
なお、通知部108は、第2のキーワード「訪問した日」を項目名「訪問日」の言い換え表現として登録するか否かを事前にユーザに確認してから、登録部109の処理の実行有無を決定してもよい。
一方、通知部108は、ユーザから「いいえ」等の肯定的でない応答を受け付けると、
テンプレート名=not_determined
をセットし、「もういちど訪問日を入力してください。」等、項目名を特定できないことを通知する応答文をユーザに提示する。
第3実施形態の情報処理装置10-3によれば、第1実施形態の情報処理装置10の機能を用いて、項目名データベース106の言い換え表現をより適切に更新することができる。
最後に、第1乃至第3実施形態の情報処理装置10~10-3のハードウェア構成の例について説明する。
[ハードウェア構成の例]
図13は第1乃至第3実施形態の情報処理装置10~10-3のハードウェア構成の例を示す図である。情報処理装置10~10-3のハードウェア構成は同様なので、情報処理装置10について説明する。
情報処理装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
制御装置301は、補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302は、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、及び、メモリカード等である。
表示装置304は表示情報を表示する。表示装置304は、例えば液晶ディスプレイ等である。入力装置305は、コンピュータを操作するためのインタフェースである。入力装置305は、例えばキーボードやマウス等である。コンピュータがスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置304及び入力装置305は、例えばタッチパネルである。通信装置306は、他の装置と通信するためのインタフェースである。
コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、メモリカード、CD-R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
またコンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
またコンピュータで実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
コンピュータで実行されるプログラムは、上述の情報処理装置10の機能構成(機能ブロック)のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置301が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置302上にロードされる。すなわち上記各機能ブロックは主記憶装置302上に生成される。
なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2つ以上を実現してもよい。
また情報処理装置10を実現するコンピュータの動作形態は任意でよい。例えば、情報処理装置10を1台のコンピュータにより実現してもよい。また例えば、情報処理装置10を、ネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 情報処理装置
101 分割部
102 抽出部
103 検出部
104 記憶部
105 検索部
106 項目名データベース
107 推定部
108 通知部
109 登録部
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置

Claims (9)

  1. 第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する分割部と、
    前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
    前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出する検出部と、を備え、
    前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
    情報処理装置。
  2. 類語辞書を用いて、前記第1の単語に類似する類語を検索する検索部を更に備え、
    前記抽出部は、前記第1のキーワードの先頭の前記第1の単語に類似する類語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語に類似する類語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から更に抽出する、
    請求項1に記載の情報処理装置。
  3. 前記文章は、ユーザの発話から音声認識され、
    前記第1のキーワードは、フォームデータに含まれる項目名を示し、
    前記第2のキーワードから前記項目名を推定する推定部、
    を更に備える請求項1に記載の情報処理装置。
  4. 前記項目名と、前記項目名の言い換え表現とを関連付けて記憶する記憶部と、
    前記第2のキーワードを、前記言い換え表現として前記記憶部に登録する登録部と、
    を更に備える請求項3に記載の情報処理装置。
  5. 前記第2のキーワードが前記項目名に対応するか否かを前記ユーザに確認し、前記第2のキーワードが前記項目名に対応しない場合、前記項目名を特定できないことを通知する通知部、
    を更に備える請求項4に記載の情報処理装置。
  6. 前記第2のキーワードを前記言い換え表現として登録するか否かを前記ユーザに確認し、前記第2のキーワードを前記言い換え表現として登録する場合、前記第2のキーワードの登録を前記登録部に依頼する通知部、
    を更に備える請求項4に記載の情報処理装置。
  7. 前記文字類似度は、コサイン類似度及びレーベンシュタイン距離の少なくとも一方に基づいて定められる、
    請求項1に記載の情報処理装置。
  8. 情報処理装置が、第1のキーワードを第1の単語に分割し、文章を第2の単語に分割するステップと、
    前記情報処理装置が、前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出するステップと、
    前記情報処理装置が、前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出するステップと、を含み、
    前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
    情報処理方法。
  9. コンピュータを、
    第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する分割部と、
    前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
    前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出する検出部、として機能させ、
    前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
    プログラム。
JP2019214360A 2019-11-27 2019-11-27 情報処理装置、情報処理方法及びプログラム Active JP7475844B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019214360A JP7475844B2 (ja) 2019-11-27 2019-11-27 情報処理装置、情報処理方法及びプログラム
CN202080082266.9A CN114746862A (zh) 2019-11-27 2020-11-26 信息处理装置、信息处理方法以及程序
PCT/JP2020/044012 WO2021107006A1 (ja) 2019-11-27 2020-11-26 情報処理装置、情報処理方法及びプログラム
US17/663,359 US20220270589A1 (en) 2019-11-27 2022-05-13 Information processing device, information processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019214360A JP7475844B2 (ja) 2019-11-27 2019-11-27 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021086362A JP2021086362A (ja) 2021-06-03
JP7475844B2 true JP7475844B2 (ja) 2024-04-30

Family

ID=76088868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019214360A Active JP7475844B2 (ja) 2019-11-27 2019-11-27 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20220270589A1 (ja)
JP (1) JP7475844B2 (ja)
CN (1) CN114746862A (ja)
WO (1) WO2021107006A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483584B1 (ko) * 2021-12-03 2023-01-02 한국과학기술정보연구원 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045460A (ja) 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH0973454A (ja) * 1995-09-01 1997-03-18 Toshiba Corp 文書作成装置及び文書作成方法
JP2004013726A (ja) * 2002-06-10 2004-01-15 Sumitomo Electric Ind Ltd キーワード抽出装置および情報検索装置
JP5791861B2 (ja) * 2008-07-25 2015-10-07 シャープ株式会社 情報処理装置および情報処理方法
CN107423348A (zh) * 2017-05-17 2017-12-01 东莞市华睿电子科技有限公司 一种基于关键词的精确检索方法
CN109508378B (zh) * 2018-11-26 2023-07-14 平安科技(深圳)有限公司 一种样本数据处理方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045460A (ja) 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
齋藤 鎮成 外3名,開発文書作成支援技術に関する一考察 複合語の類似度計算に関する提案,電子情報通信学会2019年総合大会講演論文集 通信2 ,一般社団法人電子情報通信学会 ,2019年03月05日,pp.S-106~S-107,SAITOU, Tsunenari, "A Proposal for Method of Similarity Calculation for Compound Words", PROCEEDINGS OF THE 2019 IEICE GENERAL CONFERENCE, THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS

Also Published As

Publication number Publication date
US20220270589A1 (en) 2022-08-25
JP2021086362A (ja) 2021-06-03
CN114746862A (zh) 2022-07-12
WO2021107006A1 (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
AU2016269573B2 (en) Input entity identification from natural language text information
US10102191B2 (en) Propagation of changes in master content to variant content
US7295964B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
JP5802292B2 (ja) 共有された言語モデル
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
JP2014232452A (ja) 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム
JP2018041336A (ja) 計算機及び応答の生成方法
JP2022069790A (ja) 情報処理装置、情報処理方法、プログラム
KR20160143491A (ko) 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP7475844B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
US10552463B2 (en) Creation of indexes for information retrieval
JP2016519370A (ja) データ処理装置、データ処理方法及び電子機器
Yu et al. Identification of Code‐Switched Sentences and Words Using Language Modeling Approaches
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP4693065B2 (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
WO2019239877A1 (ja) 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム
CN111506704A (zh) 日语关键词组生成方法、装置、电子设备、存储介质
JP3775239B2 (ja) テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
KR102500106B1 (ko) 약어 사전 구축 장치 및 방법
WO2021009972A1 (ja) 自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7475844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150