JP2020190970A - 文書処理装置およびその方法、プログラム - Google Patents

文書処理装置およびその方法、プログラム Download PDF

Info

Publication number
JP2020190970A
JP2020190970A JP2019096575A JP2019096575A JP2020190970A JP 2020190970 A JP2020190970 A JP 2020190970A JP 2019096575 A JP2019096575 A JP 2019096575A JP 2019096575 A JP2019096575 A JP 2019096575A JP 2020190970 A JP2020190970 A JP 2020190970A
Authority
JP
Japan
Prior art keywords
word
input
unit
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019096575A
Other languages
English (en)
Inventor
尚和 内田
Hisakazu Uchida
尚和 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019096575A priority Critical patent/JP2020190970A/ja
Priority to US16/871,272 priority patent/US11537795B2/en
Publication of JP2020190970A publication Critical patent/JP2020190970A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語の欠損や表記ゆれが含まれている文書に対しても適切な回答文を得る。【解決手段】入力される入力質問文を受付ける入力部202と、入力部で受付ける文章の形態素解析を行うテキスト解析部207と、想定質問文と回答文を対応付けて蓄積する想定質問記憶部205と、想定質問記憶部から入力質問文に類似する想定質問文を検索して、想定質問文に対応する回答文を得る検索部203と、検索部により得られる回答文を出力する出力部204と、テキスト解析部によって単語列に変換された入力質問文と想定質問文について、単語ごとの正規化を行う正規化処理部208と、を有し、検索部203は、正規化処理部208によって単語の正規化が行われた入力質問文と想定質問文との類似判定を行う。【選択図】図2

Description

本発明は、文書処理装置およびその方法、プログラムに係り、特に、質問文に対して回答文を得る対話型文書検索装置および方法、プログラムに関する。
対話型検索装置は、特定の分野に関する質問を自然文で受け付け、システムが自然文で回答を返す装置であり、質問回答システムとも呼ばれる。この種の装置として、例えば、特許文献1には、質問文から抽出したキーワードに関する多数のコメント文章を潜在的なトピックグループに分類した上で、トピックグループに含まれる文章群と類似する回答文を対応付けて回答候補を選定し、選定した回答文候補についてそれぞれの差分となる代表キーワードを明示してユーザに選択させる技術が開示されている。
特開2013−143066号公報
特許文献1に記載の技術によれば、質問文に対する回答文が得られ、とりわけ、ユーザの質問文に対して複数の回答文の候補が存在する場合、ユーザの意図を反映した回答文を明示する(絞り込む)ことができる。
しかし、質問文や回答文に言葉の省略や表記ゆれがある場合、キーワードがうまく適合せず、適切な回答文の検索ができない可能性がある。特許文献1に記載のように、一般に公開されるFAQや業務マニュアルなど、校正が十分に行われている文書を対象とする場合、このような問題が生じる可能性は低い。しかし、社内向けの問い合わせ記録等の文書は校正がされておらず、省略や表記ゆれが多く含まれている可能性がある。特に専門用語が多い技術分野では、専門用語や固有名詞の省略表現が多用され、作成者によっては表現の仕方が異なる傾向にある。このような文書資源を活用して質問検索の仕組みを構築しようとすると、文章に含まれる単語の細かな違いが原因で、検索漏れや誤った検索結果の回答を行う恐れがある。
そこで、本発明の目的は、単語の欠損や表記ゆれが含まれている文書に対しても適切な回答文を得ることにある。
本発明に係る文章処理装置は、好ましい一実施形態によれば、入力される入力質問文を受付ける入力部と、前記入力部で受付ける文章の形態素解析を行うテキスト解析部と、想定質問文と回答文を対応付けて蓄積する想定質問記憶部と、前記想定質問記憶部から前記入力質問文に類似する前記想定質問文を検索して、前記想定質問文に対応する回答文を得る検索部と、前記検索部により得られる回答文を出力する出力部と、前記テキスト解析部によって単語列に変換された前記入力質問文と前記想定質問文について、単語ごとの正規化を行う正規化処理部と、を有し、
前記検索部は、前記正規化処理部によって単語の正規化が行われた前記入力質問文と前記想定質問文との類似判定を行う、文書処理装置として構成される。
本発明はまた、文書処理方法および文書処理プログラムとして構成される。
本発明によれば、単語の欠損や表記ゆれが含まれている文書に対しても適切な回答文を得ることが可能となる。
一実施形態に係る対話型検索システムの一例を示す図である。 一実施形態に係る対話型検索装置の構成例を示す図である。 一実施形態に係る正規化DB登録処理のフローチャートを示す図である。 一実施形態に係る正規化DB登録処理の品詞対応テーブルを示す図である。 一実施形態に係る同義語テーブルを示す図である。 一実施形態に係る属性語登録処理のフローチャートを示す図である。 一実施形態に係る属性語候補テーブルを示す図である。 一実施形態に係る属性語テーブルを示す図である。 一実施形態(実施例1)に係る正規化処理のフローチャートを示す図である。 一実施形態に係る想定質問登録処理のフローチャートを示す図である。 一実施形態に係る検索処理のフローチャートを示す図である。 一実施形態に係る属性語テーブル・同義語テーブル編集処理のフローチャートを示す図である。 実施例2に係る正規化処理のフローチャートを示す図である。 一実施形態に係る端末の表示画面の例を示す図である。 一実施形態に係る端末の表示画面の例を示す図である。
文書処理装置の好ましい実施形態として対話型検索装置の例を挙げる。すなわち、検索対象の文書群をもとに同義語と省略される可能性がある単語を推定し、ユーザから入力される入力質問文と検索対象の想定質問文の双方について、同義語や表記ゆれを統一し、省略されている単語を補完する正規化処理を行った上で検索を行う対話型検索装置について説明する。
文書中の任意の単語Aと単語Bについて、それぞれが同じような文脈で使われている場合、単語Aと単語Bはその文書中で相対的に近い意味で使われていると考えられる。二つの文章が同じ文脈かどうかは文章を構成する単語とその係り受け関係によって決まるが、同じ文脈の文章は同じ単語で構成されていることが多く、単語の一致数だけでも二つの文章が同じ文脈かどうかの判定はある程度可能とされる。したがって、単語A、単語Bの周辺に出現する単語がある程度一致していれば、単語Aと単語Bは、同じ文脈で使われており、すなわち、近い意味の単語であると考えることができる。
このような仮定のもとに単語間の意味の近さを数値化する技術に単語埋め込みベクトルがある。単語埋め込みベクトルは、学習コーパス中のすべての単語についてその前後に現れる複数単語の統計をもとに、単語を200次元程度の実数ベクトルに変換する手法で、単語間の意味の近さをベクトル間のコサイン類似度によって計ることができる。単語埋め込みベクトルを対象の文書群から生成し、任意の単語についてコサイン類似度が一定以上の単語を抽出すれば、その単語と近い意味で使われている単語を抽出することができる。
しかし、単語間のコサイン類似度は、双方の単語の前後に現れる単語が一致数によるため、同義語以外でも、高頻度でその単語と係り受け関係を持って共起するような単語も抽出される。そこで、対象文書群の形態素Nグラム(単語Nグラム)を生成し、単語埋め込みベクトルのコサイン類似度によって抽出された単語が同じNグラムエントリに含まれるかどうかによって近接して共起関係にあるかどうかを判定し、同義語と分ける。
ここで、共起関係にある単語が、一方を省略してもその単語で構成していた句の意味が変わらない可能性がある単語となる。そこで、このような単語のリストを作成し、検索時に文章中の単語の補完に用いる。
コサイン類似度が高いが共起関係にはない単語は、同義語候補である。このような単語には、置き換えても意味が変わらない同義語や表記ゆれのほかにも、地名のように同種だが置き換えできない関連語も含まれる。そこで、後述の品詞情報をもとに同義語と関連語の判定を行い、同義語・表記ゆれを抽出する。これをもとに、検索時に文章中の同義語と表記ゆれの統一を行う。
以下、図面を参照して、好ましい実施形態について説明する。
実施例1は、ユーザにより入力される入力質問文と検索対象の想定質問文について、同義語と表記ゆれを一意な表記に正規化し、省略されている単語を補完した上で検索を行う対話型検索装置の例について説明するものである。
図1は、対話型検索システムを示す。
対話型検索システムは、対話型検索装置100と、端末19を含んで構成される。端末19は、ネットワークに接続可能な、例えばPC(パーソナルコンピュータ)、スマートフォン、タブレット等の、ユーザが操作する情報処理装置である。端末19は、ネットワークを介して対話型検索装置100と接続し、対話型検索装置100に質問文のテキストを送信し、対話型検索装置100からの応答を受信する。なお、図1には1台の端末19が示されているが、対話型検索装置100には複数の端末19が接続され得る。
文書処理装置としての対話型検索装置100は、通信部101を介して、端末19と通信を行いながら検索処理を実行するコンピュータであり、プログラムを実行して所用の機能を実現するCPU(処理部)102と、データを記憶するメモリ103および記憶装置104を有する。
図2は、対話型検索装置100の機能構成を示す。
対話型検索装置100は、入力部202、検索部203、出力部203、想定質問記憶部205、登録部206、テキスト解析部207、正規化処理部208、正規化DB登録部209、形態素解析辞書210、属性語テーブル211、同義語テーブル212、属性語候補テーブル216、関連語DB213、形態素Nグラム214、単語埋め込みベクトル215を有して構成される。これらの主な構成部位は、対話型検索プログラムがCPU102で実行されることで実現される。また、上記のテーブルやDB(データベース)は、メモリ103または記憶装置104内に形成される。以下、各部位について詳細に説明する。
ユーザインタフェース部201は、対話型検索装置のユーザインタフェースを提供するモジュールであり、WebサーバとWebアプリケーションサーバ等で実現される機能である。ユーザインタフェース部201は、端末19にブラウザで表示する対話型検索装置のユーザインタフェースを生成し、端末19からのテキスト入力を受け付けて入力部202に出力し、出力部204から回答文を受け取って端末19に出力する。
なお、端末19で専用のアプリケーションを使用し、ユーザインタフェース部201がそのアプリケーションに対してテキストのやりとりをするよう構成しても良い。
入力部202は、ユーザインタフェース部201から受け取ったテキストデータを対話型検索装置の各モジュールへ転送するモジュールであり、テキストデータの加工、登録、検索は、すべて入力部202を介して行われる。
検索部203は、ユーザインタフェース部201を介して端末19から入力される質問文(以下、入力質問文という)について、想定質問記憶部205で検索を行い、検索の結果得られた回答文を出力部204に出力するモジュールである。検索部203は、入力質問文を想定質問記憶部205に登録されている想定質問と比較して類似度を算出する。その結果、最も類似度が高い想定質問文に対応付いた回答文を出力部204に出力する。このとき、類似度が所定の閾値を下回った場合は、回答文は出力せず、該当する想定質問文が見つからなかった(即ち対象がない)旨を出力部204に出力する。検索処理は、テキストの比較を行って類似度を数値化できればよく、公知の全文検索技術などを用いて実現できる。
出力部204は、検索部203から転送される回答文をユーザインタフェース部201に出力するモジュールである。検索部203による検索で、質問文に適合する結果が得られなかったことが伝達された場合は、質問に回答できない旨を表す回答文を生成して出力する。
想定質問記憶部205は、想定質問文とその回答文を格納するモジュールである。想定質問文には一つの回答文が対応付けられている。より詳しく言えば、形態素解析済みの想定質問文と、テキストのままの回答文を登録する。検索処理では、回答文に対する検索は行わない前提であるので回答文はテキストのままとしている。なお、一つの回答文に複数の想定質問文が対応づけられていてもよい。想定質問の作成時に明示的に複数の言い回しの質問文を作成する場合は、一つの回答文に複数の想定質問文が対応付けられる。
登録部206は、想定質問とその回答を想定質問記憶部205に登録するモジュールである。想定質問データは、入力部202から入力される。登録部206は、想定質問データを一件ずつ、または一括で登録できる。なお、登録に際しては、入力部202から入力されたデータに対して、重複登録などのデータの不備をチェックした上で登録を行う。入力された想定質問データについて、既に登録済みの想定質問と回答が含まれている場合や、回答文が対応付いていない想定質問文は除外する。また、登録部206は、正規化処理部208が行う正規化処理で利用するため、入力されたデータを正規化DB登録部209にも出力する。
テキスト解析部207は、入力部202から入力されるテキストの形態素解析を行い、さらに、正規化処理部208を介して形態素解析結果の正規化を行い、正規化された形態素解析結果を入力部202に出力する。なお、テキスト解析部207は、形態素解析の前処理として、英数字記号、カタカナの全角への統一、漢字については旧字体などの異字体を常用漢字に変換する処理を行い、文字単位で可能な正規化を行う。
形態素解析では、形態素解析辞書210を用いてテキストを単語列に分割し、読みと品詞情報を付与する。形態素解析辞書210には、単語ごとの読み・品詞情報と、大量のテキストコーパスから学習された単語の生起コストと単語間の連接コストを持つデータベースである。テキスト解析部207の形態素解析処理は、形態素解析辞書210の情報をもとに、テキストを日本語として適切な位置で区切って単語列に分割する。
テキスト解析部207は、形態素解析辞書210に登録されていない単語でも、長音符を含むカタカナの連続、ハイフンを含む英数字の連続は、一つの単語として分割するように処理する。このように分割された単語は、未知語のタグを付与し、辞書によって解析された一般の単語と区別できるようにしておく。この処理によって、辞書にないカタカナ表記の専門用語や製品名などの固有名詞、英数字列で書かれた製品や部品の型式も一つの単語として分割される。
正規化処理部208は、入力された単語列について同義語と表記ゆれの正規化と省略されている単語の補完を行うモジュールである。同義語と表記ゆれの正規化では、同義語テーブル212を参照して、該当する単語があれば、同義語テーブル212に登録されている単語に置換する。省略されている単語の補完では、属性語テーブル211を参照して、該当する単語があれば、属性語テーブル211に登録されている単語の挿入を行う。正規化処理部208が実行する正規化処理の詳細については後述する。
属性語テーブル211は、ある単語と共起関係にあり、かつ、省略されることがある単語が登録されている。例えば、「A社」製の製品「A01」があり、「A01」は「A社」製であることが自明である場合、「A社」は省略され、単に「A01」と書かれる場合がある。属性語テーブル211は、このような場合の「A社」と「A01」の対が登録される。「A社」は「A01」の属性を表すことから、本実施例では、「A01」に対する「A社」を属性語と呼ぶ。属性語テーブル211は正規化DB登録部209によって作成される。属性語テーブルの例を図8に示す。属性語候補テーブル216は、正規化DB登録部206が属性語テーブル211を作成する過程で生成するテーブルである。属性語候補テーブルの例を図7に示す。
同義語テーブル212は、ある単語と同じ意味で置き換えが可能である同義語が登録されている。表記ゆれは、例えば、「コンピューター」に対する「コンピュータ」、「Computer」などである。同義語テーブル212は正規化DB登録部209によって作成される。同義語テーブルの例を図5に示す。
関連語DB213は、想定質問記憶部205に登録される文書と同じ分野の技術仕様書や製品マニュアルなどで、想定質問記憶部205に登録される文書に含まれる単語を包含し、かつ、文書校正がされていて表記ゆれが存在しない文書の形態素解析結果が格納される。関連語DB213は、正規化DB登録部209が実行する正規化DB登録処理において、質問文中の未知語が表記ゆれかどうかを判定するために使用される。なお、想定質問記憶部205に登録される文書を包含できる単語のリストがあれば、これを登録するようにしても良い。
形態素Nグラム214は、想定質問記憶部205に登録されるすべての想定質問文とその回答文の形態素解析結果から作成した形態素Nグラムである。形態素Nグラム214は、正規化DB登録部209が実行する正規化DB登録処理において作成され、同処理において学習コーパス内で出現回数が所定の回数以上の単語を抽出する処理と、二つの単語に共起関係があるかを調べ処理に使用する。本実施例では最大3つまでの連接する単語の出現確率を求めた3グラムを用いて説明するが、学習コーパスとして使用する想定質問文と回答文が十分多ければ4グラム以上を用いても良い。Nが大きければ、より離れた位置で共起関係にある単語の対も確認することができる。
単語埋め込みベクトル215は、想定質問記憶部205に登録されるすべての想定質問文とその回答文の形態素解析結果から作成した単語埋め込みベクトルである。単語埋め込みベクトル215は、正規化DB登録部209が実行する正規化DB登録処理において作成され、同義語と属性語を抽出する処理で使用される。
正規化DB登録部209は、登録部206から転送される想定質問文と回答文を用いて、属性語テーブル211と同義語テーブル212を作成する正規化DB登録処理を行うモジュールである。属性語テーブル211と同義語テーブル212の作成には、単語埋め込みベクトル215と形態素Nグラム214、関連語DB213を用いる。単語埋め込みベクトル215と形態素Nグラム214は、登録部206が想定質問記憶部205に登録した想定質問とその回答の形態素解析結果から生成する。
[正規化DB登録処理]
正規化DB登録処理のフローを図3に示す。正規化DB登録処理では、学習コーパス(学習テキスト)内に所定の回数以上出現する名詞と未知語について、その単語の同義語と属性語を推定して、それぞれ属性語テーブル211と同義語テーブル212に登録する。正規化DB登録処理は、ユーザによって想定質問集の一括登録が行われる時に、登録部206を介して実行される。正規化DB登録部209は、登録部206から形態素解析処理済みの想定質問集のテキストが入力されると、そのテキストから単語埋め込みベクトル215を生成する。なお、想定質問記憶部205に単語埋め込みベクトルは、word2vec等、学習コーパス内での単語の相対的な意味に基づいて単語をベクトル化する技術である。単語埋め込みベクトルでは、ベクトル間のコサイン類似度によって単語間の意味の近さが表される。正規化DB登録部209は、単語埋め込みベクトルと併せて、形態素Nグラムの生成も行う。
正規化DB登録部209は、学習コーパスから単語埋め込みベクトルと形態素Nグラムを生成した後、形態素Nグラムの1グラムを参照して、出現頻度が所定の回数以上で品詞が、普通名詞、固有名詞、未知語である単語を抽出する(S301)。抽出した単語の一つに着目し(S302)、その単語(以下、着目語という)に対してコサイン類似度が所定の値以上の単語(以下、対象語という)を単語埋め込みベクトルから抽出する(S303)。対象語は、単語埋め込みベクトルの生成に用いた学習コーパスにおいて、着目語と相対的に意味が近いと計算された単語である。
単語間の意味の近さは、学習コーパス内でその単語の前後の文脈に現れる単語によって算出され、コサイン類似度が高い単語同士は、同じような文脈で使われる単語となる。したがって、対象語は着目語と全く同じ意味で置き換え可能な同義語である場合のほか、例えば地名同士など同種だが置き換えはできない関連語である場合がある。また、これ以外にも、同じ句の中で共起関係にある単語も該当する。同じ句の中で共起関係にある単語は、一方を省略しても意味が通じることがあり、以降の処理でこれらを分類し、同義語と属性語を抽出する。
コサイン類似度が所定の値以上である対象語があった場合(S303:YES)、正規化DB登録部209は、対象語の一つに着目すると、Nグラムの2グラムと3グラムのエントリを参照し、着目語と対象語を含むエントリを探す。二つの単語を含むエントリがあれば(S304:YES)、その二つの単語は共起関係にある単語と判定できる。しかし、この段階では、どちらが属性語であるかは判定できない。
「A社(の製品の)A01」という例の場合、「A01」が「A社」製品の固有名詞であれば、「A社」は「A01」の属性語であり、省略しても意味が通じる単語と考えられる。しかし、「A01」が、「A社」製品の固有名詞ではなく、「B社(の製品の)A01」という例も考えられる。この場合は、「A社」は省略できない単語である。したがって、省略可能な属性語を推定するためには、学習コーパス全体の単語関係を調べる必要がある。そこで、この時点では、属性語候補として属性語候補テーブル216に登録する(S305)。
このとき、対象語と着目語は、Nグラムエントリの中の語順で属性語候補1、属性語候補2という形で登録する。例えば、Nグラムエントリに対象語の単語、着目語の単語の語順で出ていれば、対象語を属性語候補1に、着目語を属性語候補2に登録する。図7に属性語候補の例を示す。例えば、着目語が「A01」、対象語が「A社」であり、3グラムエントリとして「A社 の A01」が存在した場合、「A社」を属性語候補1に、「A01」を属性語候補2に登録する(704)。
Nグラムに着目語と対象語を含むエントリが存在しない場合(S304:NO)、対象語は着目語の同義語・表記ゆれ、または関連語と判定する。正規化DB登録部209は、次に対象語が同義語・表記ゆれか、関連語かの判定を行う。同義語・表記ゆれと関連語の判定は、着目語と対象語のそれぞれの品詞の組み合わせによって一次判定を行い、品詞に組み合わせによっては、さらに関連語DB213を使用した二次判定を行う。この判定基準を図00に示す。正規化DB登録部209は、図4に示す品詞対応テーブル(同義語判定基準)に従って同義語テーブルへの登録を行う(S306)。
着目語と対象語がともに普通名詞の場合(405)、正規化DB登録部209は、対象語を着目語の同義語と判定し、対象語を着目語の同義語として同義語テーブル212に登録する。着目語が普通名詞で対象語が固有名詞の場合(406)、対象語は着目語より狭い意味を持ち、相互に置き換えることはできないと考えられるため、正規化DB登録部209は、対象語を関連語と判定し、同義語テーブル212への登録は行わない。対象語が普通名詞で着目語が未知語の場合(407)、対象語は着目語の表記ゆれか、着目語と同種の固有名詞である可能性がある。対象語が着目語の表記ゆれか固有名詞かは、関連語DB213を参照して、対象語が存在するかをチェックすることで判定する。
関連語DB213に格納されている文書は、対話型検査装置で扱う業務の専門用語が十分に含まれており、かつ、校正がされているため表記ゆれは存在しないものとする。したがって、対象語が、関連語DB213に存在していれば、対象語は表記ゆれではなく当該分野で使われる固有名詞であると判断できる。この場合、着目語が普通名詞で、対象語が固有名詞であるときと同じ条件となるため、正規化DB登録部209は、対象語を関連語と判定する。一方、対象語が関連語DB213に存在しなければ、対象語は着目語の表記ゆれであるとみなせる。したがって、正規化DB登録部209は、対象語を着目語の同義語と判定する。
着目語が固有名詞で対象語が普通名詞の場合(408)、対象語は着目語と同種の一般名詞であるため、正規化DB登録部209は、対象語を着目語の関連語と判定し、同義語テーブル212への登録は行わない。着目語も対象語も固有名詞である場合(409)、着目語と対象語は同種の単語であるため、正規化DB登録部209は、やはり、対象語を着目語の関連語と判定し、同義語テーブル212への登録は行わない。着目語が固有名詞で対象語が未知語の場合(410)、対象語は着目語の表記ゆれ、または同種の関連語と考えられる。そこで、いずれかを判定するために関連語DB213を参照する。対象語が関連語DBの中に存在すれば、対象語を関連語と判定する。対象語が関連語DBに存在しない場合は、対象語は着目語の表記ゆれ(同義語)と判定し、同義語テーブル212に登録する。
着目語が未知語で対象語が普通名詞の場合(411)、または着目語が未知語で対象語が固有名詞の場合(412)、着目語が対象語の表記ゆれ、または関連語と判定し、正規化DB登録部209は、いずれかを判定するために関連語DB213を参照する。参照の結果、着目語が関連語DBの中に存在すれば、正規化DB登録部209は、着目語を対象語の関連語と判定し、同義語テーブル212への登録は行わない。着目語が関連語DBに存在しない場合は、正規化DB登録部209は、着目語は対象語の表記ゆれ(同義語)と判定し、同義語テーブル212に登録する。
着目語も対象語も未知語の場合(413)、着目語と対象語のいずれも固有名詞、あるいは、いずれも表記ゆれ、あるいはどちらかが固有名詞でもう一方が表記ゆれのパターンが考えられる。そこで、正規化DB登録部209は、着目語と対象語の両方について、関連語DB213を参照して検索し、関連語DB内に存在するかどうかをチェックする。着目語と対象語の双方が関連語DBに存在する場合、着目語と対象語は相互に関連語の関係にあるため、同義語テーブル212に登録しない。
着目語と対象語のいずれも関連語DBに存在しない場合、着目語、対象語ともに他の単語の表記ゆれと考えられるため、同義語テーブルに登録しない。着目語と対象語のいずれかが関連語DBに存在した場合、関連語DBに存在しなかった単語を、関連語DBに存在した単語の表記ゆれと判定し、同義語テーブル212に登録する。
以上の処理を、着目語の対象語すべてについて実施する(S307:YES)。着目語のすべての対象語についてチェックが終わったら(S307:NO)、着目語を変えて同様の処理を繰り返し(S308:YES)、出現頻度が所定以上の名詞、固有名詞、未知語について、それらの同義語と属性語候補の抽出を行う。
図5に同義語テーブルの例を示す。対象語(501)を正規化表記(502)に置換する規則であることを示す。503は普通名詞における表記ゆれの例である。504は未知語の表記ゆれの例である。505は同義語の例である。
次に、S305で抽出した属性語候補から属性語を判定して、属性語テーブルに登録を行う(S309)。図6に属性語登録処理のフローを示し、図7に属性語候補の例を示す。正規化DB登録部209は、属性語テーブル211を参照し、二つ以上の属性語候補の対に含まれる単語があるかを調べる。図7の例では「A社」が704と705に、「LAN」が707と708に、「ポート」が707と708に含まれている。
二つ以上の属性語候補の対に含まれている単語がなければ(S601:NO)、属性語の登録は行わずに処理を終了する。これは一つの属性語候補の対だけでは、どちらが属性語かの判定ができないためである。二つ以上の属性語候補の対に含まれている単語がある場合(S601:YES)、正規化DB登録部209は、それらの単語を含む属性語候補の対を抽出する(S602)。図7では、706の「OFF」「ON」の対以外の対が抽出される。
次に抽出した属性語候補の対の一つに着目し(S603)、属性語候補1、属性語候補2ともに2つ以上の属性語候補の対に含まれるかを調べる。704の場合、「A社」は、704と705に含まれるが、「A01」が含まれるのは704のみである。したがって、この条件には含まれない(S604:NO)。この条件が成立する場合、正規化DB登録部209は、その属性語候補ペアを属性語テーブルに登録する(S605)。このとき、2つ以上の属性語候補ペアに含まれる単語を属性語とする。704の場合、「A社」が属性語となる。
一方、属性語候補1、属性語候補2の単語がともに他の属性語候補ペアにも含まれる場合(S604:YES)、属性語には登録しない。図7では、707、708、709がこれに該当する。707では、属性語候補1の「LAN」が707と709に含まれ、属性語候補2の「ポート」も707と708に含まれている。「LAN」と「USB」に対して「ポート」は共通の属性であるが、「ポート」と「ケーブル」に対しては「LAN」が共通の属性である。
相互に属性の関係がある場合は、属性語の補完を行うと異なる意味になる可能性が高いため、属性語としての登録は行わない。このようにして、すべての属性語候補の対を調べて、属性語を選定する。図7に示す属性語候補の例に対して、最終的に属性語テーブルに登録される属性語テーブルを図8に示す。属性語テーブルは、対象語801と属性語802で構成され、正規化処理部208で実行される正規化処理にて、対象語が含まれていた場合に属性語を挿入する処理が行われる。
属性語テーブル211の挿入位置803は、対象語に対して属性語を補完する場合の挿入位置が前か後かを示す。挿入位置803は、対象語801が、図7に示す属性語候補テーブルにおいて、属性語候補1と属性語候補2のどちらであったかによって決定される。「A01」と「A社」の例では、属性語候補テーブルで「A01」が属性語候補2、「A社」が属性語候補1であり、学習コーパスで「A01」の前に「A社」が現れていたことを示す。この情報に従い、挿入位置803は「前」となる。
[正規化処理]
テキスト解析部207は、入力質問文と想定質問文に対し、正規化処理部208を介して、形態素解析結果の単語列の正規化処理を行う。正規化処理は、正規化処理部208が、正規化DB登録部209が作成した属性語テーブル211と同義語テーブル212を使用して、同義語・表記ゆれを一意な表記に正規化し、属性語テーブル211を用いて省略されている単語を単語列に挿入する処理を行う。
正規化処理によって正規化する対象は、普通名詞と未知語である。図9を参照するに、正規化処理部208は、テキスト解析部207から入力される形態素解析結果の単語列について、品詞情報から普通名詞、未知語があるかを判定する(S901)。判定の結果、普通名詞も未知語も含まれていない場合(S901:NO)、正規化対象の単語はないため処理を終了する。一方、普通名詞または未知語が一つ以上含まれていれば(S901:YES)、普通名詞と未知語を抽出し、同義語テーブル212を参照して、抽出した単語が同義語テーブル212の対象語にあるかを検索する(S902)。検索の結果、同義語テーブル212に対象語の登録があった場合(S903:YES)、同義語テーブル212で当該対象語と対になっている正規化語を取得し、対象の単語を正規化語に置き換える。この動作を、抽出したすべての単語について実行する(S904)。一方、同義語テーブルに対象語が登録されていなければ(S903:NO)、何の処理を行わない。
次に、属性語テーブル211を参照して、省略されている単語の補完を行う。すなわち、正規化処理部208は、属性語テーブル211を参照して、S902で抽出した普通名詞と未知語を検索する(S905)。検索の結果、属性語テーブル211に一致する対象語があった場合(S906)、属性語テーブル211から対象語の属性語を取得する(S907)。そして、取得した属性語が入力の単語列に存在しているかどうかを調べる。そして、属性語が入力の単語列に存在していない場合、取得した属性語を単語列に挿入する(S908)。
[想定質問登録処理]
図10に、想定質問を登録する処理のフローチャートを示す。想定質問の登録では、事前に関連語DB213の登録を行う。すなわち、入力部202は、入力される校正済み業務文書を読み込み、テキスト解析部207に出力する(S1001)。そして、テキスト解析部207から形態素解析結果の単語列を受けとる。なお、このとき、正規化処理部208による正規化処理は行わない。形態素解析結果の単語列は、登録部206を介して正規化DB登録部209に入力され、正規化DB登録部209は、それを関連語DB213に登録する(S1002)。
次に入力部202は、想定質問文とその回答文のテキスト(想定質問集)を読み込み(S1003)、テキスト解析部207に出力する。テキスト解析部207は、入力された全ての想定質問文と回答文に対して形態素解析を行い、形態素解析結果の単語列を入力部202に出力する(S1004)。このときも、正規化処理部208による正規化処理は行わない。なお、想定質問文に限り、正規化DB登録処理の後に正規化処理を実行するため、想定質問文の形態素解析結果を一時的に保存しておく。
入力部202は、形態素解析結果の単語列を、登録部206を介して正規化DB登録部209に出力する(S1004)。正規化DB登録部209は、想定質問文と回答文の形態素解析結果を学習コーパスとして正規化DB登録処理を実行し、正規化処理部208を介して、属性語テーブルと同義語テーブルを登録する(S1005)。次にテキスト解析部207は、S1004で保存しておいた想定質問文の形態素解析結果を正規化処理部208に出力し、正規化処理部208が入力された想定質問文の形態素解析結果に対して、S1005で作成した属性語テーブルと同義語テーブルで正規化処理を行って、テキスト解析部207に出力する(S1006)。テキスト解析部207は、入力された正規化処理済みの形態素解析結果を入力部202に出力する。
入力部202は、テキスト解析部207から入力された、形態素解析と正規化を行った想定質問文、形態素解析のみの想定質問文、テキストのままの回答文を登録部206に出力する。登録部206は、想定質問文の形態素解析結果(正規化ありなしの両方)とそれに紐付く回答文のテキストを想定質問記憶部205に登録する(S1007)。正規化なしの想定質問文は、属性語テーブル211と同義語テーブル212に誤りがあった場合に、ユーザにテーブルを修正させ、これをもとに正規化処理をやり直すために使用する。
属性語テーブル・同義語テーブル編集処理のフローチャートを図12に示す。属性語テーブル・同義語テーブル編集処理は、後述の操作画面にて、テーブル編集ボタンが押下された場合に実行される。テーブル編集ボタンが押下されると、登録部206が正規化DB登録部209と正規化処理部208を介して、属性語テーブル211と同義語テーブル212を読み出し、出力部204に出力する(S1201)。
次に入力部202が、テーブルの内容を修正する入力を受け付け(S1202)、テーブルの修正と保存が行われる(S1203)。修正入力では、置換や補完対象の単語の変更や、テーブルの行の削除や追加を受け付ける。
修正後、正規化処理部208が、想定質問記憶部205にある正規化なしの想定質問文の形態素解析結果に対して、修正されたテーブルを用いて再度、正規化処理を行い、登録部206が想定質問記憶部205に正規化結果を上書き登録する(S1204)。
[検索処理]
図11に、検索処理のフローチャートを示す。検索処理は、ユーザが端末19から入力した入力質問文に対して検索を行ない、回答文を出力するまでの動作を含む。
まず、入力部202が、端末19から入力された質問文(入力質問文)を受け付けて(S1101)、その受け付けた入力質問文をテキスト解析部207に転送する。次に、テキスト解析部207は、入力質問文のテキストの形態素解析を行って、正規化処理部208に転送する。正規化処理部208は正規化処理を実行して、その結果を、テキスト解析部207を介して入力部202に返却する(S1102)。
入力部202は、形態素解析結果の単語列を検索部203に出力する。検索部203は、想定質問記憶部205を参照して、入力質問文に近い想定質問文を検索する。検索の結果、類似度が所定の閾値以上の想定質問文が見つかった場合(S1104:YES)、検索部203は、一致した想定質問文に対応付く回答文のテキストを出力部204に出力する(S1105)。出力部204は、その回答文をユーザインタフェース部201に出力する。
一方、類似度が所定の閾値以上の想定質問文が見つからなかった場合(S1104:NO)、検索部203は、対象がない(質問に回答できない)旨の通知を出力部204に出力する。出力部204は、質問に回答できない旨を表す文章をユーザインタフェース部201に出力する(S1106)。
S1102の正規化処理において、属性語テーブルによる単語の補完、または同義語テーブルによる単語の置換を行った場合、正規化なしで再検索するかを、ユーザインタフェース部201を介して端末10へ問い合わせる(S1107)。端末10から再検索が指定された場合(S1107:「再検索する」)、正規化なしの入力文を検索クエリとして再検索を行う(S1108)。検索に関する処理(S1109〜S1111)は、S1104〜S1106と同様である。
図14に、端末10に表示される表示画面の例を示す。
端末10の表示画面は、検索欄1401と、ユーザが質問文を入力する入力欄1405と、検索ボタン1406と、同義語テーブル編集ボタン1407および属性語テーブル編集ボタン1408を有する。検索欄1401には、入力欄1405に入力された質問文の正規化結果1402と、検索の結果得られた回答文1403の表示が含まれる。検索欄1401の表示1402,1403は、入力欄1405の質問文について検索ボタン1406が押下された時に表示される。1404は、対話履歴(検索履歴)を表示するためのスクロールバーである。
正規化結果1402は、入力欄1405に入力された質問文の正規化結果が表示されるが、図示の例では、「A社」が補完され、「不具合」が「故障」に置換されている。なお、形態素解析結果をそのまま表示せず、各形態素の表記をつなぎ合わせて再構成されたテキストを表示する。「A社」は、属性語テーブル211(図8参照)の挿入位置803の情報に従い、「A01」の前に挿入されている。表示1402に示すように、正規化処理により修正された部分は、太字、アンダーライン、フォントや色の変更などに強調表示されるので、ユーザに分かり易い。表示1403に示すように、想定質問文の修正についても同様に強調表示される。このように表示することで、誤った補完や置換が行われて検索が行われても、それをユーザに気づかせることができる。
同義語テーブル編集ボタン1407と属性語テーブル編集ボタン1408は、当該テーブルをユーザが編集するためのボタンで、このボタンが押下されると、図12で説明した属性語テーブル・同義語テーブル編集処理が実行される。
同様に、図15は、図11に示した検索処理のS1107以降の処理動作における表示画面の例である。1501は、正規化を行った上で検索した旨ともとの入力文で検索するかどうかを確認するメッセージである。ユーザが「はい」1502を選択すると、検索部206は正規化なしで再検索を実行する(S1108)。
上記したように、実施例1によれば、端末19からのユーザ操作による入力質問文と検索対象の想定質問文について、同義語と表記ゆれを一意な表記に正規化し、省略されている単語を補完した上で検索を行うので、より適切な想定質問文を検索して回答文を得ることができる。
実施例1では省略されている単語の補完を行っていたが、実施例2では省略可能な単語を削除して検索を行う例を示す。実施例1において単語の補完を行う場合、正規化DB登録処理で誤った単語が登録されることがあった場合に、不必要な単語を挿入してしまう可能性がある。これに対して、実施例2では単語の挿入を行わないで、このような事態を防ぐことができる。
図13に、実施例2に係る正規化処理のフローチャートを示す。S901〜S907までの処理は、実施例1の図9で説明した正規化処理(S901〜S907)と同様であるので、説明を省略する。S1308では、S907で取得した属性語が、入力の単語列に存在しているかどうかを調べる。そして、属性語が入力の単語列に存在している場合、その属性語を削除する。
このように実施例2によれば、ユーザから入力される入力質問文と検索対象の想定質問文について、同義語と表記ゆれを一意な表記に正規化し、省略可能な単語を削除した上で検索を行うので、より適切な想定質問文を検索して回答文を得ることができる。
以上、好ましい実施例について説明したが、本発明は上記実施例に限定されず、様々な変形例が含まれる。例えば、上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理ステップ等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
100 対話型検索装置
19 端末
201 ユーザインタフェース部
202 入力部
203 検索部
204 出力部
205 想定質問記憶部
206 登録部
207 テキスト解析部
208 正規化処理部
209 正規化DB登録部
210 形態素解析辞書
211 属性語テーブル
212 同義語テーブル
213 関連語DB
214 形態素Nグラム
215 単語埋め込みベクトル
216 属性語候補テーブル

Claims (15)

  1. 入力される入力質問文を受付ける入力部と、
    前記入力部で受付ける文章の形態素解析を行うテキスト解析部と、
    想定質問文と回答文を対応付けて蓄積する想定質問記憶部と、
    前記想定質問記憶部から前記入力質問文に類似する前記想定質問文を検索して、前記想定質問文に対応する回答文を得る検索部と、
    前記検索部により得られる回答文を出力する出力部と、
    前記テキスト解析部によって単語列に変換された前記入力質問文と前記想定質問文について、単語ごとの正規化を行う正規化処理部と、を有し、
    前記検索部は、前記正規化処理部によって単語の正規化が行われた前記入力質問文と前記想定質問文との類似判定を行う、
    ことを特徴とする文書処理装置。
  2. 前記正規化部は、任意の第1の単語と第2の単語について、対象文書群において該第1の単語と該第2の単語の周辺に出現する単語の一致数が所定値以上であり、かつ、対象文書群の単語を網羅する関連語情報に該第2の単語が含まれていない場合、該第1の単語を含む文章に対して、該第1の単語を該第2の単語に置換する、
    請求項1に記載の文書処理装置。
  3. 前記正規化部は、任意の第1の単語について、検索対象文書群において所定の長さの単語列における前記第1の単語との共起確率が所定値以上である第2の単語と第3の単語が存在する場合、該第2の単語または該第3の単語を含む単語列に対して該第1の単語を挿入する、
    請求項1に記載の文書処理装置。
  4. 前記正規化部は、任意の第1の単語について、検索対象文書群において所定の長さの単語列における前記第1の単語との共起確率が所定値以上である第2の単語と第3の単語が存在する場合、該第1の単語と該第2の単語を含み、該第1の単語と該第2の単語の間の単語の数が所定数以下の文章と、該第1の単語と該第3の単語を含み、該第1の単語と該第3の単語の間の単語の数が所定数以下の文章に対して、該第1の単語を削除する、
    請求項1に記載の文書処理装置。
  5. 学習コーパス内に所定の回数以上出現する名詞と未知語の単語について、該単語の同義語と属性語を生成する正規化DB登録部と、
    前記正規化DB登録部により生成された属性語を登録する属性語テーブルと、
    前記正規化DB登録部により生成された同義語を登録する同義語テーブルと、
    を有する請求項1に記載の文書処理装置。
  6. 前記正規化部は、
    前記入力部が受け付ける前記入力質問文に含まれる普通名詞と未知語の単語について、前記同義語テーブルを検索して、検索の結果、前記同義語テーブルに対象語が登録されている場合、該対象語と対になっている正規化語を取得して、対象の前記単語を正規化語に置き換える、
    を有する請求項5に記載の文書処理装置。
  7. 前記正規化部は、
    前記入力部が受け付ける前記入力質問文に含まれる普通名詞と未知語の単語について、前記属性語テーブルを検索して、前記単語について一致する対象語がある場合、該対象語に対応する属性語を取得して、該属性語が入力される単語列に存在していない場合、取得した前記属性語を前記単語列に挿入する、
    を有する請求項5に記載の文書処理装置。
  8. 前記検索部は、前記正規化処理部によって、前記入力質問文に含まれる前記単語が正規化語に置き換えられた前記入力質問文と前記想定質問文との類似判定を行う、
    または、前記属性語が前記単語列に挿入された前記入力質問文と前記想定質問文との類似判定を行う、
    を有する請求項6または7に記載の文書処理装置。
  9. 前記正規化DB登録部は、前記学習コーパスから単語埋め込みベクトルと形態素Nグラムを生成した後、形態素Nグラムの1グラムを参照して、出現頻度が所定の回数以上で品詞が、普通名詞、固有名詞、未知語である単語を抽出し、該単語に対してコサイン類似度が所定の値以上の単語を対象語とし、Nグラムに前記対象語に対応する着目語が存在しない場合、前記対象語は該着目語の同義語・表記ゆれ、または関連語と判定する、
    請求項6または7に記載の文書処理装置。
  10. コンピュータを用いて文書処理を行う文書処理方法であって、
    入力される入力質問文を受付ける入力ステップと、
    前記入力ステップで受付ける文章の形態素解析を行うテキスト解析ステップと、
    想定質問文と回答文を対応付けて蓄積する想定質問記憶部から前記入力質問文に類似する前記想定質問文を検索して、前記想定質問文に対応する回答文を得る検索ステップと、
    前記検索ステップにより得られる回答文を出力する出力ステップと、
    前記テキスト解析ステップによって単語列に変換された前記入力質問文と前記想定質問文について、単語ごとの正規化を行う正規化処理ステップと、を有し、
    前記検索ステップは、前記正規化処理ステップによって単語の正規化が行われた前記入力質問文と前記想定質問文との類似判定を行う、
    ことを特徴とする文書処理方法。
  11. 学習コーパス内に所定の回数以上出現する名詞と未知語の単語について、該単語の同義語を生成する正規化DB登録ステップと、
    前記正規化DB登録ステップにより生成された同義語を同義語テーブルに登録するステップと、を有し、
    前記正規化ステップは、
    前記入力ステップで受け付ける前記入力質問文に含まれる普通名詞と未知語の単語について、前記同義語テーブルを検索して、検索の結果、前記同義語テーブルに対象語が登録されている場合、該対象語と対になっている正規化語を取得して、対象の前記単語を正規化語に置き換える、請求項10に記載の文書処理方法。
  12. 学習コーパス内に所定の回数以上出現する名詞と未知語の単語について、該単語の属性語を生成する正規化DB登録ステップと、
    前記正規化DB登録ステップにより生成された属性語を属性語テーブルに登録するステップと、を有し、
    前記正規化ステップは、
    前記入力ステップで受け付ける前記入力質問文に含まれる普通名詞と未知語の単語について、前記属性語テーブルを検索して、前記単語について一致する対象語がある場合、該対象語に対応する属性語を取得して、該属性語が入力される単語列に存在していない場合、取得した前記属性語を前記単語列に挿入する、請求項10に記載の文書処理方法。
  13. 前記コンピュータにネットワークを介して接続される端末に、
    前記入力質問文の入力欄と、検索ボタンと、該入力欄に入力された前記入力質問文の正規化結果と、検索の結果得られた前記回答文と、を含む画面を表示する
    請求項10に記載の文書処理方法。
  14. 前記同義語テーブルによる単語の置換、または前記属性語テーブルによる単語の補完を行った場合、前記コンピュータにネットワークを介して接続される端末に、正規化なしで再検索するかを問い合わせる画面を表示する
    請求項11または12に記載の文書処理方法。
  15. コンピュータで実行される文書処理プログラムであって、該コンピュータは、
    入力される入力質問文を受付ける入力ステップと、
    前記入力ステップで受付ける文章の形態素解析を行うテキスト解析ステップと、
    想定質問文と回答文を対応付けて蓄積する想定質問記憶部から前記入力質問文に類似する前記想定質問文を検索して、前記想定質問文に対応する回答文を得る検索ステップと、
    前記検索ステップにより得られる回答文を出力する出力ステップと、
    前記テキスト解析ステップによって単語列に変換された前記入力質問文と前記想定質問文について、単語ごとの正規化を行う正規化処理ステップと、
    前記検索ステップは、前記正規化処理ステップによって単語の正規化が行われた前記入力質問文と前記想定質問文との類似判定を行う、
    を実行することを特徴とする文書処理プログラム。
JP2019096575A 2019-05-23 2019-05-23 文書処理装置およびその方法、プログラム Pending JP2020190970A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019096575A JP2020190970A (ja) 2019-05-23 2019-05-23 文書処理装置およびその方法、プログラム
US16/871,272 US11537795B2 (en) 2019-05-23 2020-05-11 Document processing device, document processing method, and document processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019096575A JP2020190970A (ja) 2019-05-23 2019-05-23 文書処理装置およびその方法、プログラム

Publications (1)

Publication Number Publication Date
JP2020190970A true JP2020190970A (ja) 2020-11-26

Family

ID=73453807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019096575A Pending JP2020190970A (ja) 2019-05-23 2019-05-23 文書処理装置およびその方法、プログラム

Country Status (2)

Country Link
US (1) US11537795B2 (ja)
JP (1) JP2020190970A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7137028B1 (ja) 2022-02-25 2022-09-13 株式会社Jsol 質問文生成装置、質問文生成方法、質問文生成プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538465B1 (en) * 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context
US11217227B1 (en) 2019-11-08 2022-01-04 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain
US11829400B2 (en) * 2021-05-05 2023-11-28 International Business Machines Corporation Text standardization and redundancy removal

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034614A (ja) * 1999-07-16 2001-02-09 Fujitsu Ltd 自然言語型検索支援装置及び方法
JP2001117919A (ja) * 1999-10-21 2001-04-27 Sharp Corp 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体
JP2002073661A (ja) * 2000-08-31 2002-03-12 Toshiba Corp 知的情報管理システム及び知的情報登録方法
JP2003058539A (ja) * 2001-08-13 2003-02-28 Logo Vista Corp 事例翻訳におけるシソーラス辞書作成装置
JP2006031194A (ja) * 2004-07-13 2006-02-02 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
US20070022109A1 (en) * 2005-07-25 2007-01-25 Tomasz Imielinski Systems and methods for answering user questions
JP2011248409A (ja) * 2010-05-21 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置とその方法とプログラム
JP2012008948A (ja) * 2010-06-28 2012-01-12 Sharp Corp 類似性導出装置および類似性導出プログラム
JP2013156815A (ja) * 2012-01-30 2013-08-15 Nec Corp ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
US20170323204A1 (en) * 2016-05-03 2017-11-09 International Business Machines Corporation Text Simplification for a Question and Answer System

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9645993B2 (en) * 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
JP5711674B2 (ja) 2012-01-12 2015-05-07 Kddi株式会社 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods
US10861022B2 (en) * 2019-03-25 2020-12-08 Fmr Llc Computer systems and methods to discover questions and answers from conversations
US11036803B2 (en) * 2019-04-10 2021-06-15 International Business Machines Corporation Rapid generation of equivalent terms for domain adaptation in a question-answering system

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034614A (ja) * 1999-07-16 2001-02-09 Fujitsu Ltd 自然言語型検索支援装置及び方法
JP2001117919A (ja) * 1999-10-21 2001-04-27 Sharp Corp 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体
JP2002073661A (ja) * 2000-08-31 2002-03-12 Toshiba Corp 知的情報管理システム及び知的情報登録方法
JP2003058539A (ja) * 2001-08-13 2003-02-28 Logo Vista Corp 事例翻訳におけるシソーラス辞書作成装置
JP2006031194A (ja) * 2004-07-13 2006-02-02 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
US20070022109A1 (en) * 2005-07-25 2007-01-25 Tomasz Imielinski Systems and methods for answering user questions
JP2011248409A (ja) * 2010-05-21 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置とその方法とプログラム
JP2012008948A (ja) * 2010-06-28 2012-01-12 Sharp Corp 類似性導出装置および類似性導出プログラム
JP2013156815A (ja) * 2012-01-30 2013-08-15 Nec Corp ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
US20170323204A1 (en) * 2016-05-03 2017-11-09 International Business Machines Corporation Text Simplification for a Question and Answer System

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7137028B1 (ja) 2022-02-25 2022-09-13 株式会社Jsol 質問文生成装置、質問文生成方法、質問文生成プログラム
JP2023124315A (ja) * 2022-02-25 2023-09-06 株式会社Jsol 質問文生成装置、質問文生成方法、質問文生成プログラム

Also Published As

Publication number Publication date
US11537795B2 (en) 2022-12-27
US20200372215A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
US9208140B2 (en) Rule based apparatus for modifying word annotations
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
US7483828B2 (en) Multilingual database creation system and method
US11386269B2 (en) Fault-tolerant information extraction
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
US8041556B2 (en) Chinese to english translation tool
Huo et al. ARCLIN: automated API mention resolution for unformatted texts
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JP3825645B2 (ja) 表現変換方法及び表現変換装置
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
US20030093261A1 (en) Multilingual database creation system and method
Aytan et al. Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic
JP3737817B2 (ja) 表現変換方法及び表現変換装置
Dawit Context Based Afaan Oromo Language Spell Checker For Handheld Device
CN114742068A (zh) Iso 19650标准文本的多语句关联分析方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240116