JP7091295B2 - 解析装置、解析方法及びプログラム - Google Patents

解析装置、解析方法及びプログラム Download PDF

Info

Publication number
JP7091295B2
JP7091295B2 JP2019162678A JP2019162678A JP7091295B2 JP 7091295 B2 JP7091295 B2 JP 7091295B2 JP 2019162678 A JP2019162678 A JP 2019162678A JP 2019162678 A JP2019162678 A JP 2019162678A JP 7091295 B2 JP7091295 B2 JP 7091295B2
Authority
JP
Japan
Prior art keywords
word
category
similarity
unit
analysis device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019162678A
Other languages
English (en)
Other versions
JP2021043491A (ja
Inventor
優佳 小林
浩司 藤村
憲治 岩田
尚水 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2019162678A priority Critical patent/JP7091295B2/ja
Priority to CN202010122489.5A priority patent/CN112463934A/zh
Priority to US16/803,448 priority patent/US11615126B2/en
Publication of JP2021043491A publication Critical patent/JP2021043491A/ja
Application granted granted Critical
Publication of JP7091295B2 publication Critical patent/JP7091295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は解析装置、解析方法及びプログラムに関する。
自然文を入力して行う検索では、あらかじめ、ユーザが入力する単語(検索キーワード)を網羅する必要がある。従来は各コンテンツについて、対応する検索キーワードを開発者が手動で付与していた。そのため、コンテンツごとにどんな検索キーワードが用いられるかを考えなければならず、データベースの生成にコストがかかっていた。同義語辞書などを用いて1つのキーワードを拡張することはできるが、それ以外の類義語などは手動で付与する必要があった。近年、大量の文書を用いて単語間の類似度モデルを学習し、単語間の意味的類似度を算出する類似度算出器の技術が用いられている。
特許第4769005号公報
Counter-fitting Word Vectors to Linguistic Constraints
しかしながら、従来の技術では、どんなキーワードが各カテゴリに割り当てられるのかをあらかじめ確認することができない。大量の文書を用いて機械学習によって生成される類似度算出器は意味的な類似度として好ましくない結果を出すことがあり、開発者が意図しない単語(キーワード)がカテゴリに割り当てられる場合がある。本発明が解決しようとする課題は、カテゴリと関連する単語をより容易に把握することができる解析装置、解析方法及びプログラムを提供することである。
実施形態の解析装置は、算出部と適用部と決定部と表示制御部とを備える。算出部は、カテゴリを示す第1単語と、第2単語との第1類似度を算出する。適用部は、前記第1類似度が第1閾値よりも大きい1以上の第2単語を1以上のテンプレート文に適用する。決定部は、前記第2単語を含むテンプレート文を解析して、前記第2単語を1以上の第1カテゴリに分類する。表示制御部は、前記第1カテゴリの分類に使用された前記第2単語を、前記第1カテゴリ毎に表示部に表示する。
第1実施形態の解析装置の機能構成の例を示すブロック図。 第1実施形態の対話システムの機能構成の例を示すブロック図。 第1実施形態の音声対話処理の例を示すフローチャート。 第1実施形態の単語とカテゴリとの関連度の算出例1を示す図。 第1実施形態の単語とカテゴリとの関連度の算出例2を示す図。 第1実施形態の単語とカテゴリとの関連を示す表示情報の例1を示す図。 第1実施形態の単語とカテゴリとの関連を示す表示情報の例2を示す図。 第1実施形態の単語とカテゴリとの関連度の算出方法の例を示すフローチャート。 第2実施形態のカテゴリの変更を受け付ける表示情報の例を示す図。 第2実施形態のカテゴリの削除を受け付ける表示情報の例を示す図。 第2実施形態のカテゴリの追加を受け付ける表示情報の例を示す図。 第3実施形態の単語とカテゴリとの関連度の変更を受け付ける表示情報の例を示す図。 第5実施形態の単語とカテゴリとの関連を示す表示情報の例を示す図。 第1乃至第5実施形態の解析装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、解析装置、解析方法及びプログラムの実施形態を詳細に説明する。
[解析装置の機能構成の例]
図1は第1実施形態の解析装置10の機能構成の例を示すブロック図である。第1実施形態の解析装置10は、算出部1、適用部2、決定部3、表示制御部4及び記憶部101を備える。
記憶部101は情報を記憶する。記憶部101は、例えばカテゴリに分類されたコンテンツ(コンテンツデータベース)を記憶する。カテゴリは、例えば服・かばん・アクセサリーなどの取扱商品のジャンル、和食・中華・洋食などの料理のジャンル、女性向け・男性向けなどの対象ユーザ、及び、安い・高いなどの価格帯などである。コンテンツは、例えば商品を販売する店舗等である。コンテンツには、1以上のカテゴリが登録される。
算出部1は、カテゴリを示す単語(第1単語)と、単語(第2単語)との類似度(第1類似度)を算出する。なお、カテゴリを示す単語を受け付ける方法は任意でよい。例えば、第1単語は、ユーザにより直接、入力されてもよいし、複数の第1単語からユーザにより選択されてもよい。
また例えば、カテゴリを示す単語(第1単語)は、発話データ等の入力情報から取得されてもよい。発話データを受け付ける場合、算出部1が、発話データに含まれる単語(第3単語)と、カテゴリを示す単語(第1単語)との類似度(第2類似度)を算出する。そして、算出部1は、類似度(第2類似度)が閾値(第2閾値)よりも大きい単語(第1単語)と、単語(第2単語)との類似度(第1類似度)を算出する。具体的には、入力情報が、例えばユーザの発話「ギターを買いたい」である場合、「ギター」との類似度(第2類似度)が閾値(第2閾値)よりも大きい単語として、カテゴリの単語「楽器」が取得される。この場合、算出部1は、単語「楽器」と、単語(第2単語)との類似度(第1類似度)を算出する。
具体的には、算出部1は、単語間の意味的類似度を算出する。類似度の具体的な算出方法は任意でよい。例えば、算出部1は、文書内での使われ方が似ているほど、単語間の類似度を高く算出する。また、算出部1は、ある単語に類似度が高い単語(類似度が閾値より大きい単語)を出力することもできる。
適用部2は、カテゴリを示す単語(第1単語)を算出部1に入力し、算出部1から類似度(第1類似度)が閾値(第1閾値)より大きい1以上の単語(第2単語)を受け付ける。例えば、カテゴリが「楽器」の場合、適用部2は、算出部1から、「ギター」、「ピアノ」、「リコーダー」及び「ハープ」を受け付ける。そして、適用部2は、算出部1から受け付けた1以上の単語を、1以上のテンプレート文に適用する。テンプレート文は、例えばコンテンツを検索する発話文を示す。テンプレート文は、例えばあらかじめ収集された大量の発話文に基づいて生成される。具体的には、テンプレート文は、「[楽器]が買いたい」、「[楽器]がほしい」、「[楽器]のお店は」、及び、「[楽器]」等である。[楽器]の部分には、例えば単語「ギター」、「ピアノ」、「リコーダー」及び「ハープ」が適用される。
決定部3は、単語(第2単語)を含むテンプレート文を解析して、当該単語を1以上のカテゴリ(第1カテゴリ)に分類する。具体的には、決定部3は、「ギターを買いたい」を解析して、「ギター」をカテゴリ「楽器」に分類する。
テンプレート文(発話文)の具体的な解析方法は任意でよい。例えば、あらかじめコンテンツを検索するための発話文を大量に収集しておき、各発話文がどのカテゴリについて言及したものなのかをラベル付しておき、これを学習データとして用いてモデルを作成する。学習方法はいくつか考えられるが、例をあげる。まず、学習データに含まれる各発話文が、単語が分割されていない言語(例えば日本語等)の場合、形態素解析が行われ、発話文が単語に分割される。次に、コンテンツに登録されているカテゴリの単語が取得される。次に、発話文中の単語と、カテゴリの単語との類似度が、算出部1を用いて算出される。次に、発話文中の単語と、算出された類似度とを特徴量とし、ラベル付されたカテゴリを正解値としてモデルが学習される。なお、決定部3が、実際に解析する際も上記と同様にして、単語が適用されたテンプレート文中の単語と、カテゴリとの類似度を算出することにより、単語をカテゴリに分類する。
なお、算出部1は単語間の類似度を算出するだけなので、算出部1を用いただけではどのキーワードがどのカテゴリに対応するのか決定できない。実際にはキーワードとカテゴリの対応付けは類似度だけでは決定されず、対話システムの設計によっては発話文の言い回しによって対応付けが変わる場合がある。たとえば「子供服が買いたい」という発話文ではカテゴリ「子供用」が対応し、「子供連れでも入れるところ」という発話文ではカテゴリ「ファミリー向け」が対応する。
そこで、算出部1により算出された類似度に基づいて、決定部3が作成される。決定部3はあらかじめ、検索用の発話文を大量に収集し、発話文と算出部1とを用いて、発話文中のキーワードがどのカテゴリに対応するのかを決定するモデルを学習する。決定部3は学習モデルを使用しているので、どんなキーワードがどのカテゴリに対応するのかはモデルからは直接確認することができない。また、大量の発話文から機械学習しているので、好ましくないキーワードをカテゴリに対応づけている可能性がある。そのため、例えば事前に開発者が確認して、好ましくないキーワードは変更する必要がある。
表示制御部4は、カテゴリ(第1カテゴリ)の分類に使用された単語(第2単語)を、カテゴリ(第1カテゴリ)毎に表示部に表示する。表示部は、例えば液晶ディスプレイ等の表示装置である。表示部は、解析装置10に備えられていてもよいし、外部の装置に備えられていてもよい。
コンテンツを記憶するデータベースは、例えば対話システムのドメインごとに作成される。ドメインは、例えば店舗検索の場合、店舗を複数含むデパート及びショッピングセンターなどの施設毎に分割される。また例えば、ドメインは、店舗検索、商品検索及びサービス検索などの検索対象で分割されてもよい。
上述の算出部1及び決定部3は、ドメイン毎にカスタマイズされてもよいし、ドメイン共通で使用されてもよい。
ここで、解析装置10の機能(算出部1、決定部3及び記憶部101)を利用した対話システムを利用してユーザがコンテンツを検索する際の音声対話処理について説明する。
[対話システムの機能構成の例]
図2は第1実施形態の対話システム20の機能構成の例を示すブロック図である。第1実施形態の対話システム20は、算出部1、決定部3、検索部5及び記憶部101を備える。算出部1、決定部3及び記憶部101の説明は、図1と同様なので省略する。
検索部5は、決定部3により分類されたカテゴリ(第1カテゴリ)に基づいて、コンテンツを検索する。コンテンツの検索方法の詳細は図3を用いて説明する。
なお、解析装置10と対話システム20とは、同じ装置により実現してもよい。実施形態では、説明のため、解析処理の動作について説明する場合には、解析装置10と称呼し、音声対話処理の動作について説明する場合には、対話システム20と称呼する。
図3は第1実施形態の音声対話処理の例を示すフローチャートである。図3の例は、ユーザの発話入力が、「ギターを買いたい」である場合を示す。
はじめに、発話文の解析が行われる(ステップS1)。具体的には、上述の算出部1及び決定部3の処理によって、カテゴリ「楽器」が出力される。
次に、検索部5が、ステップS1の処理により得られたカテゴリ「楽器」に基づいて、1以上の検索クエリを作成する(ステップS2)。検索クエリには、例えばカテゴリ「楽器」との関連度が、閾値よりも大きい単語(検索キーワード)が含まれる。なお、関連度については後述する。
次に、検索部5が、ステップS2の処理により作成された検索クエリを使用して、コンテンツを検索する(ステップS3)。次に、検索部5は、検索結果が0件であるか否かを判定する(ステップS4)。検索結果が0件の場合(ステップS4,Yes)、検索結果が0件であることを通知して(ステップS5)、処理を終了する。
検索結果が0件でない場合(ステップS4,No)、検索部5は、検索結果がX件(閾値)より小さいか否かを判定する(ステップS6)。検索結果がX件以上の場合(ステップS6,No)、検索部5は、他の条件を要求する(ステップS7)。検索結果がX件より小さい場合(ステップS6,Yes)、検索部5が、検索結果を表示部に表示する。
上述の図2のような対話システム20の新規ドメインが作成される場合、まずコンテンツを記憶するデータベース(コンテンツDB)が作成される。なお、算出部1、テンプレート文を記憶するデータベース(テンプレート文DB)、及び、決定部3をドメイン共通で使用する場合は、既存のものを使用できる。
算出部1、テンプレート文DB及び決定部3をドメイン毎に保持する場合は、コンテンツDBを検索するための発話文が大量に収集され、当該発話文を元にして、算出部1、テンプレート文DB及び決定部3が作成される。
解析装置10及び対話システム20の機能ブロックをドメイン共通で使用する場合、新規ドメインが作成される際には、コンテンツDBを設計するだけでよい。しかも、カテゴリの同義語、類似語などを考える必要がないので、コンテンツにカテゴリを登録するだけでよい。しかし、この状態では、ユーザは実際に各コンテンツが、どのような検索キーワードで検索されるのかが分からない。検索キーワードには、例えばカテゴリとの関連度が、設定された閾値よりも高い単語が使用される。
そこで、決定部3が、カテゴリ(第1カテゴリ)と単語(第2単語)との関連度を、当該単語をカテゴリに分類するときに使用されたテンプレート文の数に応じて決定する。そして、表示制御部4が、単語に関連度を付与して表示する。これにより、ユーザはカテゴリと関連する単語をより容易に把握することができる。
図4Aは第1実施形態の単語とカテゴリとの関連度の算出例1を示す図である。適用部2は、カテゴリ「楽器」を算出部1に入力し、算出部1から受け付けた1以上の単語(第2単語)を1以上のテンプレート文に適用する。図4Aの例では、算出部1から受け付けた1以上の単語として、「ギター」、「ピアノ」、「リコーダー」及び「ハープ」が例示されている。
決定部3は、単語(第2単語)を含むテンプレート文を解析して、当該単語をカテゴリ(第1カテゴリ)に分類する。図4Aの例では、決定部3は、「ギターを買いたい」を解析して、「ギター」を「楽器」カテゴリに分類する。また、決定部3は、「ギターがほしい」を解析して、「ギター」を「楽器」カテゴリに分類する。また、決定部3は、「ギターのお店は」を解析して、「ギター」を「楽器」カテゴリに分類する。また、決定部3は、「ギター」を解析して、「ギター」を「楽器」カテゴリに分類する。
次に、決定部3は、カテゴリ(第1カテゴリ)と単語(第2単語)との関連度を、当該単語をカテゴリに分類するときに使用されたテンプレート文の数に応じて決定する。図4Aの例では、「ギター」が適用された全てのテンプレート文で、「ギター」が「楽器」カテゴリに分類されている。そのため、決定部3は、「楽器」カテゴリと「ギター」との関連度を、1.0に決定する。
図4Bは第1実施形態の単語とカテゴリとの関連度の算出例2を示す図である。適用部2は、カテゴリ「楽器」を算出部1に入力し、算出部1から受け付けた1以上の単語(第2単語)を1以上のテンプレート文に適用する。図4Bの例では、算出部1から受け付けた1以上の単語として、「ギター」、「ピアノ」、「リコーダー」及び「ハープ」が例示されている。
決定部3は、単語(第2単語)を含むテンプレート文を解析して、当該単語をカテゴリ(第1カテゴリ)に分類する。図4Bの例では、決定部3は、「リコーダーを買いたい」を解析して、「リコーダー」を「楽器」カテゴリに分類する。また、決定部3は、「リコーダーがほしい」を解析して、「リコーダー」を「楽器」カテゴリに分類する。また、決定部3は、「リコーダーのお店は」を解析して、「リコーダー」を「楽器」カテゴリに分類する。また、決定部3は、「リコーダー」を解析して、「リコーダー」を「子供用品」カテゴリに分類する。
次に、決定部3は、カテゴリ(第1カテゴリ)と単語(第2単語)との関連度を、当該単語をカテゴリに分類するときに使用されたテンプレート文の数に応じて決定する。図4Bの例では、「リコーダー」が適用された3つのテンプレート文で、「リコーダー」が「楽器」カテゴリに分類されている。また、「リコーダー」が適用された1つのテンプレート文で、「リコーダー」が「子供用品」カテゴリに分類されている。そのため、決定部3は、「楽器」カテゴリと「リコーダー」との関連度を、0.75に決定し、「子供用品」カテゴリと「リコーダー」との関連度を、0.25に決定する。
図5は第1実施形態の単語とカテゴリとの関連を示す表示情報の例1を示す図である。図5の例は、単語とカテゴリとの関連をリスト形式で可視化する場合を示す。図5では、各カテゴリに関連する単語が、検索キーワードとして表示されている。検索キーワードが複数のカテゴリに関連する検索キーワードは、関連度が付与されている。
図6は第1実施形態の単語とカテゴリとの関連を示す表示情報の例2を示す図である。図6の例は、単語とカテゴリとの関連をマップ形式で可視化する場合を示す。図6では、各カテゴリに関連する単語が、各カテゴリの周辺に表示されている。単語の位置は、単語とカテゴリとの関連度、及び、単語間の類似度に応じて決定されている。複数のカテゴリに関連する単語は、複数の矢印でカテゴリに結び付けられており、矢印には、関連度が付与されている。図6の例では、単語間(検索キーワード間)の類似度も、単語間の距離によって可視化することができる。
図7は第1実施形態の単語とカテゴリとの関連度の算出方法の例を示すフローチャートである。はじめに、適用部2が、カテゴリを示す単語(第1単語)を算出部1に入力し、算出部1から1以上の単語(第2単語)を取得する(ステップS11)。次に、適用部2は、ステップS11の処理により取得された1以上の単語(第2単語)を1以上のテンプレート文に適用する(ステップS12)。
次に、決定部3が、単語(第2単語)を含むテンプレート文を解析して、当該単語をカテゴリ(第1カテゴリ)に分類する(ステップS13)。次に、決定部3は、カテゴリ(第1カテゴリ)と単語(第2単語)との関連度を、当該単語をカテゴリに分類するときに使用されたテンプレート文の数に応じて決定する(ステップS14)。
次に、表示制御部4が、カテゴリ(第1カテゴリ)の分類に使用された単語(第2単語)を、カテゴリ(第1カテゴリ)毎に表示部に表示する(ステップS15)。図7の例は、関連度が1.0の場合は、関連度の表示を省略し、単語が2以上のカテゴリに関連する場合は、当該単語に関連度を付与して表示する場合を示す。
以上説明したように、第1実施形態の解析装置10では、算出部1が、カテゴリを示す単語(第1単語)と、単語(第2単語)との類似度(第1類似度)を算出する。適用部2は、第1類似度が第1閾値よりも大きい1以上の第2単語を1以上のテンプレート文に適用する。決定部3は、第2単語を含むテンプレート文を解析して、第2単語を1以上のカテゴリ(第1カテゴリ)に分類する。そして、表示制御部4が、第1カテゴリの分類に使用された第2単語を、第1カテゴリ毎に表示部に表示する。
これにより第1実施形態の解析装置10によれば、カテゴリと関連する単語をより容易に把握することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略する。
カテゴリに関連付けられた単語を、図5及び図6で確認した結果が、ユーザが意図したものと異なる場合がある。例えば、算出部1の設定に誤った値が含まれていたため、意味的に近くない単語が、カテゴリに関連付けられてしまう場合である。また例えば、店舗を検索する場合、カテゴリ「楽器」に分類されている店舗でも、「ピアノ」を売っていない店舗の場合には「ピアノ」で検索されるのは好ましくない。そこで、第2実施形態では、カテゴリと単語との関連付けが、好ましくない結果になっていた場合、これを変更できるようにする場合の構成について説明する。
図8乃至図11は、単語(第2単語)に関連付けられるカテゴリ(第1カテゴリ)の変更、削除又は追加を受け付ける表示情報(ユーザインターフェース)の例である。検索キーワードの項目は自由記述で、図5及び図6により可視化された検索キーワードを記述しても良いし、新たな検索キーワードを記述しても良い。カテゴリの項目は現在コンテンツDB内にあるカテゴリの一覧から選択できる。表示制御部4は、検索キーワードの項目の入力を受け付けると、現在対応づけられているカテゴリをカテゴリの項目に表示する。
図8は第2実施形態のカテゴリの変更を受け付ける表示情報の例を示す図である。表示制御部4が、例えばカテゴリの項目に表示された「スポーツウェア」が、「服」に変更され、「登録」ボタンの押下を受け付けると、変更内容が反映される。
図9は第2実施形態のカテゴリの削除を受け付ける表示情報の例を示す図である。表示制御部4が、例えば検索キーワード「ピアノ」のカテゴリ「楽器」の隣のゴミ箱アイコンの押下を受け付けると、カテゴリ「楽器」に関連付けられていた単語「ピアノ」の削除が反映される。
図10は第2実施形態のカテゴリの追加を受け付ける表示情報の例を示す図である。表示制御部4が、例えば検索キーワード「サブレ」に関連付けられるカテゴリとして、「ケーキ」が追加され、「登録」ボタンの押下を受け付けると、カテゴリ「ケーキ」に単語「サブレ」を追加する反映が行われる。
変更、削除及び追加作業を実施するユーザは、解析装置10のシステム内部の仕組みについて理解していなくても、図5及び図6を見て、好ましくない検索キーワードについて、意図した設計になるように図8乃至図11のような簡単なユーザインターフェースを操作するだけでよい。
次に、カテゴリの変更、削除及び追加を反映させる方法について説明する。カテゴリの変更、削除及び追加を反映させる方法は、例えば3種類考えられる。
1つ目は、算出部1の動作を変更する方法である。算出部1は、単語(第2単語)に関連付けられるカテゴリ(第1カテゴリ)の変更、削除又は追加に応じて類似度を変更する。具体的には、例えばカテゴリ「スポーツウェア」から検索キーワード「セーター」を除外したい場合、カテゴリ「スポーツウェア」に関連付けられた単語と、検索キーワード「セーター」との類似度を低くする(閾値未満にする)。カテゴリ「服」に検索キーワード「セーター」を追加したい場合、カテゴリ「服」に関連付けられた単語と検索キーワード「セーター」の類似度を高くする(閾値以上にする)。
2つ目は、決定部3の動作を変更する方法である。決定部3は、単語(第2単語)に関連付けられるカテゴリ(第1カテゴリ)の変更、削除又は追加に応じて、当該単語が分類されるカテゴリを変更、削除又は追加する。具体的には、決定部3は学習モデルを使用しているが、学習モデルの判定結果をそのまま出力するのではなく、学習モデルの判定結果をルールで変更する処理を追加する。このルールを変更することで検索キーワードの変更が可能になる。例えば、カテゴリ「スポーツウェア」から検索キーワード「セーター」を除外したい場合、学習モデルがカテゴリ「スポーツウェア」を出力しても、カテゴリ「スポーツウェア」を除外するルールを記述する。また例えば、カテゴリ「服」に検索キーワード「セーター」を追加したい場合、学習モデルがカテゴリ「服」を出力しなくても、カテゴリ「服」を追加するルールを記述する。
3つ目は、コンテンツDBを変更する方法である。決定部3は、単語(第2単語)に関連付けられるカテゴリ(第1カテゴリ)の変更、削除又は追加に応じて、コンテンツDBでコンテンツに登録されているカテゴリ(第2カテゴリ)を変更、削除又は追加する。具体的には、例えば変更したい検索キーワードを新たにカテゴリにする。例えば「セーター」という検索キーワードを変更したい場合、カテゴリ「セーター」を作成する。検索キーワード「セーター」は、例えば類似度が一番高いカテゴリ「セーター」に対応するので、他のカテゴリには対応しなくなる。また例えば、カテゴリ「スポーツウェア」から検索キーワード「セーター」を除外したい場合、カテゴリ「セーター」を作成する。また例えば、カテゴリ「服」に検索キーワード「セーター」を追加したい場合、カテゴリ「セーター」を作成し、カテゴリ「服」に登録されているコンテンツにカテゴリ「セーター」を登録する。対話システム20の実行時には検索キーワード「セーター」はカテゴリ「服」とは扱われないが、カテゴリ「服」に登録されているコンテンツとカテゴリ「セーター」に登録されているコンテンツは同じなので、カテゴリ「セーター」で検索しても検索結果は同じになる。
ある検索キーワードが複数のカテゴリに対応していた場合、発話文によってどちらのカテゴリに判定されるかわからない。そのため、1つのカテゴリにのみ対応するように変更したい場合がある。例えば図5及び図6の例では、検索キーワード「Tシャツ」がカテゴリ「スポーツウェア」及びカテゴリ「服」の両方に含まれている。カテゴリ「服」のみに対応するように変更する際は、カテゴリ「スポーツウェア」から検索キーワード「Tシャツ」を除外する処理を上記3つの方法のどれかで実施すればよい。
逆に、ある検索キーワードを複数のカテゴリに対応させたい場合がある。例えば図5及び図6の例では、検索キーワード「焼き菓子」はカテゴリ「ケーキ」と「クッキー」の両方に対応している。ただし、「焼き菓子」を含む発話文を入力するとカテゴリ「ケーキ」と「クッキー」を両方出力するのではなく、発話文の言い回しによってカテゴリ「ケーキ」が出力されたり、カテゴリ「クッキー」が出力されたりする。発話文の言い回しによらずカテゴリ「ケーキ」と「クッキー」の両方を出力したい場合がある。算出部1を変更しても、両方出力されるようにはならないので、決定部3又はコンテンツDBを変更する。
決定部3を変更する場合、後段のルール処理の部分に検索キーワード「焼き菓子」はカテゴリ「ケーキ」及び「クッキー」の両方を出力するように記述する。コンテンツDBを変更する場合、カテゴリ「焼き菓子」を作成し、カテゴリ「ケーキ」と「クッキー」に登録されているコンテンツ全てにカテゴリ「焼き菓子」を登録する。こうすると検索キーワード「焼き菓子」が入力されるとカテゴリ「焼き菓子」が出力され、カテゴリ「焼き菓子」に登録されているコンテンツが該当する。
図5及び図6の初期状態で、複数のカテゴリに対応している場合、発話文の言い回しによって出力されるカテゴリが異なる。ユーザが特に変更しなければそのままの状態で登録される。
ユーザが、図10のように、検索キーワードを複数のカテゴリに関連付ける場合、どんな発話文が来ても複数のカテゴリが出力されるようにする。以下、具体的に、検索実行時に複数のカテゴリが出力された場合の処理について、2つの方法を例に挙げて説明する。
1つ目は1つのカテゴリに絞り込む方法である。
ユーザ:焼き菓子を買いたい
対話システム:クッキーがいいですか、ケーキがいいですか
ユーザ:クッキーがいいです
検索クエリ:select * from database where カテゴリ LIKE “クッキー”
検索キーワード「焼き菓子」は、カテゴリ「クッキー」と「ケーキ」に関連付けられているので、決定部3は、両方のカテゴリを出力する。対話システム20は、この段階では検索は実施せずにどちらのカテゴリがいいかユーザに問い合わせ、カテゴリを1つに絞り込んだ後に検索を実施する。
2つ目は複数のカテゴリのままで検索する方法である。
ユーザ:焼き菓子を買いたい
検索クエリ:select * from database where カテゴリ LIKE “クッキー” OR カテゴリ LIKE “ケーキ”
対話システム:20件見つかりました。価格帯にご希望はありますか
ユーザ:安いのがいいです
検索クエリ:select * from database where (カテゴリ LIKE “クッキー” OR カテゴリ LIKE “ケーキ”) AND カテゴリ LIKE”低価格”
システム:5件見つかりました
対話システム20は、カテゴリ「クッキー」と「ケーキ」のOR検索を実施する。その後、他の絞り込み条件を使用してコンテンツの検索を行う。
上述の例では、ユーザが「焼き菓子」と発話した際に、ユーザは「クッキー」と「ケーキ」のどちらがいいか決めていない可能性がある。上述の1つ目の方法は、ユーザにどちらか決めてもらう方法である。上述の2つ目の方法は、あいまいにしたままに検索する方法である。1つ目は検索結果が少ないので、少ない件数に早く絞り込めるというメリットがある。2つ目はユーザが「クッキー」か「ケーキ」かを決めきれない場合に、他の条件で絞り込み、ユーザに無理にどちらかに決めさせる必要がないというメリットがある。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第2実施形態と同様の説明については省略する。第3実施形態では、カテゴリに関連付ける単語の変更を、より直接的な操作により受け付ける場合について説明する。
図11は第3実施形態の単語とカテゴリとの関連度の変更を受け付ける表示情報の例を示す図である。図11の表示情報の表示形式は、カテゴリ(第1カテゴリ)と単語(第2単語)との関連が、当該カテゴリの位置と、当該単語の位置とにより表されたマップ形式である。表示制御部4は、単語に関連付けられるカテゴリの変更を、当該単語の位置の変更を示す入力により受け付ける。そして、算出部1は、単語の位置の変更に応じて類似度を変更する。
具体的には、ユーザは、単語(検索キーワード)をドラッグして、任意の位置に置くことができる。算出部1は、単語が置かれた場所を元に、表示されている単語間の類似度を更新する。そして、決定部3は、単語とカテゴリとの関連度を算出し直し、表示制御部4が、表示情報を更新する。
第2実施形態で説明した図8乃至図10の方法でも、単語とカテゴリとの関連付けを変更するために、算出部1による類似度算出処理が変更されるが、類似度がユーザの意図したものと合わない場合もある。一方、図11の方法では、単語(検索キーワード)の位置を自由に変更できるので、単語の位置に応じて、単語間の類似度を意図した値に変更することができる。類似度の値を好ましいものにしておけば、例えば、今後この算出部1を他のドメインでも使用する際に、算出部1の動作を再度直す必要がなくなる。
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、第2実施形態と同様の説明については省略する。第4実施形態では、カテゴリに関連付ける単語の変更を、ドメイン共通で行う場合と、ドメイン毎に行う場合の例1について説明する。
単語(検索キーワード)とカテゴリとの関連づけを変更する理由として、例えば2種類考えられる。1つは算出部1の動作が誤っている場合である。もう1つは対応する検索キーワードがコンテンツには該当しない場合である。例えばカテゴリ「楽器」に登録されているコンテンツが検索キーワード「ピアノ」を扱っていない場合などがあげられる。
算出部1は、例えば大量の文書から学習されたモデルを使用して生成される。例えば同じ文脈で使用される単語は類似度が大きくなるような学習を実施すると、意味的には全く異なっていても、同じ文脈で使用される頻度が高ければ類似度が高くなる。例えば「辛い」及び「甘い」の意味はまったく逆であるが、「甘いものが好き」及び「辛いものが好き」のようにまったく同じ文脈で使用することが多いため、類似度が高くなる。そのため、対話システム20では上記2つは同じカテゴリに関連付けられる可能性が高い。しかし、例えばカテゴリ「スイーツ」の検索キーワードに「辛い」が含まれるのは好ましくない。そこで、検索キーワード「辛い」をカテゴリ「スイーツ」から除外することになる。
この場合、誤っているのは算出部1なので、算出部1の動作を変更するのが好ましい。すなわち、カテゴリ「スイーツ」と検索キーワード「辛い」の類似度を低くするように動作を変更する。「スイーツ」と「辛い」の類似度が高いのが好ましくないのはドメインに依存しない汎用的な内容なので、他のドメインでも同じ変更が必要になる可能性が高い。そのため、同じ変更を何度もしなくていいように、算出部1をドメイン間で共有し、変更内容も共有する。こうすることでドメインに依存しない、汎用的な変更内容を共有し、同じ変更を何度もしなくていいようにする。
算出部1をドメイン共通で保持しておき、決定部3をドメインごとに保持しておき、ドメインに依存しない変更は算出部1で反映し、ドメインに依存する変更は決定部3又はコンテンツDBで反映するようにしておけば、ドメイン依存の変更とドメイン共有の変更を分けて実現することができる。
(第4実施形態の変形例)
次に第4実施形態の変形例について説明する。変形例の説明では、第4実施形態と同様の説明については省略する。変形例では、カテゴリに関連付ける単語の変更を、ドメイン共通で行う場合と、ドメイン毎に行う場合の例2について説明する。
変形例では、算出部1及び決定部3をドメイン共通で保持しておき、コンテンツDBをドメインごとに保持しておく。ドメインに依存しない変更は、算出部1又は決定部3で反映し、ドメインに依存する変更はコンテンツDBで反映するようにしておけば、ドメイン依存の変更とドメイン共有の変更を分けることができる。
算出部1及び決定部3は学習するためのデータが大量に必要になるなど、開発にコストがかかる。そのため、ドメインごとで保持するのではなく、ドメイン共通で保持しておけば、新たなドメインを作成する際にコンテンツDBの作成のみで済み、低コストで新しいドメインを構築することができる。
(第5実施形態)
次に第5実施形態について説明する。第5実施形態の説明では、第1実施形態と同様の説明については省略する。第1実施形態では、店舗検索の例を使用して説明したが、第5実施形態では、社内ヘルプデスクの例について説明する。
図12は第5実施形態の単語とカテゴリとの関連を示す表示情報の例を示す図である。図12は、社内ヘルプデスクドメイン事例での可視化例である。店舗検索では各カテゴリは意味的類似度が低く、検索キーワードが重複しなかったが、ドメインによっては図12のように重複キーワードを多く持つことがわかる。第5実施形態の解析装置10により、どの検索キーワードを重複させるのかを確認して変更できるようにすることで、より好ましい対話システム20を作成することができる。
最後に、第1乃至第5実施形態の解析装置10のハードウェア構成の例について説明する。
[ハードウェア構成の例]
図10は第1乃至第5実施形態の解析装置10のハードウェア構成の例を示す図である。第1乃至第5実施形態の解析装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
制御装置301は、補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302は、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303は、HDD(Hard Disk Drive)、及び、メモリカード等である。
表示装置304は表示情報を表示する。表示装置304は、例えば液晶ディスプレイ等である。入力装置305は、解析装置10を操作するためのインタフェースである。入力装置305は、例えばキーボードやマウス等である。解析装置10がスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置304及び入力装置305は、例えばタッチパネルである。通信装置306は、他の装置と通信するためのインタフェースである。
第1乃至第5実施形態の解析装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、メモリカード、CD-R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また第1乃至第5実施形態の解析装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1乃至第5実施形態の解析装置10で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また第1乃至第5実施形態の解析装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1乃至第5実施形態の解析装置10で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置301が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置302上にロードされる。すなわち上記各機能ブロックは主記憶装置302上に生成される。
なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
また第1乃至第5実施形態の解析装置10の動作形態は任意でよい。第1乃至第5実施形態の解析装置10を、例えばネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 算出部
2 適用部
3 決定部
4 表示制御部
5 検索部
10 解析装置
20 対話システム
101 記憶部
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス

Claims (11)

  1. カテゴリを示す第1単語と、第2単語との第1類似度を算出する算出部と、
    前記第1類似度が第1閾値よりも大きい1以上の第2単語を1以上のテンプレート文に適用する適用部と、
    前記第2単語を含むテンプレート文を解析して、前記第2単語を1以上の第1カテゴリに分類する決定部と、
    前記第1カテゴリの分類に使用された前記第2単語を、前記第1カテゴリ毎に表示部に表示する表示制御部と、
    を備える解析装置。
  2. 前記第1カテゴリに基づいて、コンテンツを検索する検索部、
    を更に備える請求項1に記載の解析装置。
  3. 前記決定部は、前記第1カテゴリと前記第2単語との関連度を、前記第2単語を前記第1カテゴリに分類するときに使用されたテンプレート文の数に応じて決定し、
    前記表示制御部は、前記第2単語に関連度を付与して表示する、
    請求項1に記載の解析装置。
  4. 前記表示制御部は、前記第2単語に関連付けられる前記第1カテゴリの変更、削除又は追加を受け付ける表示情報を表示する、
    請求項1に記載の解析装置。
  5. 前記算出部は、前記第2単語に関連付けられる前記第1カテゴリの変更、削除又は追加に応じて前記第1類似度を変更する、
    請求項4に記載の解析装置。
  6. 前記決定部は、前記第2単語に関連付けられる前記第1カテゴリの変更、削除又は追加に応じて、前記第2単語が分類される前記第1カテゴリを変更、削除又は追加する、
    請求項4に記載の解析装置。
  7. コンテンツと、前記コンテンツの分類を示す第2カテゴリとを関連付けて記憶するコンテンツデータベースを更に備え、
    前記表示制御部は、前記第2単語に関連付けられる前記第1カテゴリの変更、削除又は追加を受け付ける表示情報を表示し、
    前記決定部は、前記第2単語に関連付けられる前記第1カテゴリの変更、削除又は追加に応じて、前記第2カテゴリを変更、削除又は追加する、
    請求項4に記載の解析装置。
  8. 前記表示情報の表示形式は、前記第1カテゴリと前記第2単語との関連が、前記第1カテゴリの位置と、前記第2単語の位置とにより表されたマップ形式であり、
    前記表示制御部は、前記第2単語に関連付けられる前記第1カテゴリの変更を、前記第2単語の位置の変更を示す入力により受け付け、
    前記算出部は、前記第2単語の位置の変更に応じて前記第1類似度を変更する、
    請求項4に記載の解析装置。
  9. 前記算出部は、発話データを受け付け、前記発話データに含まれる第3単語と、前記第1単語との第2類似度を算出し、前記第2類似度が第2閾値よりも大きい前記第1単語と、前記第2単語との第1類似度を算出する、
    請求項1に記載の解析装置。
  10. 解析装置が、カテゴリを示す第1単語と、第2単語との第1類似度を算出するステップと、
    前記解析装置が、前記第1類似度が第1閾値よりも大きい1以上の第2単語を1以上のテンプレート文に適用するステップと、
    前記解析装置が、前記第2単語を含むテンプレート文を解析して、前記第2単語を1以上の第1カテゴリに分類するステップと、
    前記解析装置が、前記第1カテゴリの分類に使用された前記第2単語を、前記第1カテゴリ毎に表示部に表示するステップと、
    を含む解析方法。
  11. コンピュータを、
    カテゴリを示す第1単語と、第2単語との第1類似度を算出する算出部と、
    前記第1類似度が第1閾値よりも1以上の第2単語を1以上のテンプレート文に適用する適用部と、
    前記第2単語を含むテンプレート文を解析して、前記第2単語を1以上の第1カテゴリに分類する決定部と、
    前記第1カテゴリの分類に使用された前記第2単語を、前記第1カテゴリ毎に表示部に表示する表示制御部と、
    として機能させるためのプログラム。
JP2019162678A 2019-09-06 2019-09-06 解析装置、解析方法及びプログラム Active JP7091295B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019162678A JP7091295B2 (ja) 2019-09-06 2019-09-06 解析装置、解析方法及びプログラム
CN202010122489.5A CN112463934A (zh) 2019-09-06 2020-02-27 解析装置、解析方法及存储介质
US16/803,448 US11615126B2 (en) 2019-09-06 2020-02-27 Analyzing apparatus, analyzing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019162678A JP7091295B2 (ja) 2019-09-06 2019-09-06 解析装置、解析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021043491A JP2021043491A (ja) 2021-03-18
JP7091295B2 true JP7091295B2 (ja) 2022-06-27

Family

ID=74832750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019162678A Active JP7091295B2 (ja) 2019-09-06 2019-09-06 解析装置、解析方法及びプログラム

Country Status (3)

Country Link
US (1) US11615126B2 (ja)
JP (1) JP7091295B2 (ja)
CN (1) CN112463934A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010033160A (ja) 2008-07-25 2010-02-12 Sharp Corp 情報処理装置および情報処理方法
US20120265779A1 (en) 2011-04-15 2012-10-18 Microsoft Corporation Interactive semantic query suggestion for content search
JP2016085747A (ja) 2015-11-24 2016-05-19 株式会社東芝 対話装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171569A (ja) * 1994-10-28 1996-07-02 Fuji Xerox Co Ltd 文書検索装置
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
KR20000012309A (ko) 1999-11-23 2000-03-06 고성민 원형방사식 인터넷 분류 검색방법
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
US20050033568A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for extracting synonymous gene and protein terms from biological literature
US7657420B2 (en) * 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
JP4769005B2 (ja) 2005-03-31 2011-09-07 株式会社日立製作所 情報処理支援システム及び情報処理支援プログラム
US7957968B2 (en) * 2005-12-22 2011-06-07 Honda Motor Co., Ltd. Automatic grammar generation using distributedly collected knowledge
JP4876692B2 (ja) 2006-04-26 2012-02-15 三菱電機株式会社 テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法
US8781813B2 (en) * 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
JP4309933B2 (ja) 2007-06-08 2009-08-05 株式会社日立製作所 文書分類装置及び分類方法
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
WO2013102052A1 (en) * 2011-12-28 2013-07-04 Bloomberg Finance L.P. System and method for interactive automatic translation
JP5924666B2 (ja) * 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
US10019991B2 (en) * 2012-05-02 2018-07-10 Electronics And Telecommunications Research Institute Apparatus and method for speech recognition
US9448992B2 (en) * 2013-06-04 2016-09-20 Google Inc. Natural language search results for intent queries
US9411786B2 (en) * 2013-07-08 2016-08-09 Adobe Systems Incorporated Method and apparatus for determining the relevancy of hyperlinks
US9606980B2 (en) * 2014-12-16 2017-03-28 International Business Machines Corporation Generating natural language text sentences as test cases for NLP annotators with combinatorial test design
US10031967B2 (en) * 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries
US10133735B2 (en) * 2016-02-29 2018-11-20 Rovi Guides, Inc. Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
US10380258B2 (en) * 2016-03-31 2019-08-13 International Business Machines Corporation System, method, and recording medium for corpus pattern paraphrasing
US10679008B2 (en) * 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
US10402491B2 (en) * 2016-12-21 2019-09-03 Wipro Limited System and method for creating and building a domain dictionary
US10255271B2 (en) * 2017-02-06 2019-04-09 International Business Machines Corporation Disambiguation of the meaning of terms based on context pattern detection
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
CN111095344B (zh) * 2017-09-11 2023-12-01 株式会社岛津制作所 试样类别的确定装置、分析系统以及分析网络系统
US20190213284A1 (en) * 2018-01-11 2019-07-11 International Business Machines Corporation Semantic representation and realization for conversational systems
US11182560B2 (en) * 2019-02-15 2021-11-23 Wipro Limited System and method for language independent iterative learning mechanism for NLP tasks
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010033160A (ja) 2008-07-25 2010-02-12 Sharp Corp 情報処理装置および情報処理方法
US20120265779A1 (en) 2011-04-15 2012-10-18 Microsoft Corporation Interactive semantic query suggestion for content search
JP2016085747A (ja) 2015-11-24 2016-05-19 株式会社東芝 対話装置

Also Published As

Publication number Publication date
JP2021043491A (ja) 2021-03-18
US20210073253A1 (en) 2021-03-11
US11615126B2 (en) 2023-03-28
CN112463934A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
Singh et al. Text similarity measures in news articles by vector space model using NLP
Najmi et al. CAPRA: a comprehensive approach to product ranking using customer reviews
US20170011092A1 (en) Systems and methods for the creation, update and use of models in finding and analyzing content
JP7013334B2 (ja) 表示システム、プログラム、及び記憶媒体
JP6836294B2 (ja) 検索用資料情報記憶装置
JP2008140359A (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
JP2017134787A (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
Higuchi KH Coder 2. x reference manual
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP3930168B2 (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
Eldin et al. An enhanced opinion retrieval approach on Arabic text for customer requirements expansion
JP6305630B2 (ja) 文書検索装置、方法及びプログラム
JP7091295B2 (ja) 解析装置、解析方法及びプログラム
TW202349325A (zh) 一種語意分析商標類別推薦系統及其方法
Jahanshahi et al. Text classification for predicting multi-level product categories
Teich et al. Scientific registers and disciplinary diversification: a comparable corpus approach
Dinov et al. Natural language processing/text mining
Palliyali et al. Comparative study of extractive text summarization techniques
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム
JP7238411B2 (ja) 情報処理装置及びプログラム
Kim et al. Question answering of bar exams by paraphrasing and legal text analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220615

R151 Written notification of patent or utility model registration

Ref document number: 7091295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151