JP7167996B2

JP7167996B2 - 事例検索方法

Info

Publication number: JP7167996B2
Application number: JP2020551629A
Authority: JP
Inventors: 健太郎森本
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2022-11-09
Anticipated expiration: 2038-10-16
Also published as: WO2020079749A1; JPWO2020079749A1; US20220027397A1

Description

本発明は、大量の検索事例から所望の事例を検索する事例検索方法に関する。

近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語（キーワード）を入力することで、文書データ等が蓄積されたデータベースに対して検索処理（検索語とのマッチング処理）が実行され、特定の条件に合致する文書データが検索結果として出力される。

大量の文書データから所望の文書を検索する方法として、従来より、自然言語処理を活用した文書データの検索が行われている。自然言語処理(NLP：Natural Language Processing)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。

人工知能分野の自然言語処理では、機械学習を応用した単語のベクトル化が中心的な技術となっている。例えば、自然言語処理で用いられる「形態素解析」は、文章やフレーズを、意味を持つ最小限の単位（単語）に分割し、品詞等を判別する処理である。

機械学習とは、データから反復的に学習し、そこに潜むパターン（特徴）を見つけ出して、そのデータを分類することである。学習した結果を新たなデータに当てはめて予測することが可能になる。自然言語処理における機械学習では、大量の文章情報を処理(ニューラルネットワークで学習)し、前後に出現する単語の分布からある単語を表すベクトル空間を作成する。

例えば、特許文献１は、検索サイトにおいて、入力された検索クエリが異なる表記であっても、その検索クエリの持つ意味が同じであれば同じ検索結果を返すという処理を行うため、異表記される同義語が含まれる文に対応するテキストデータにおける同義語の前後の文脈との相関性に基づいて、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定し、その判定結果に基づく情報処理を開示している。

特許文献２は、文書を構成する各文章に形態素解析や構文解析を適用して、単語概念ベクトル間の類似性を所定の判定基準によって判定し、ベクトルの意味的な類似性をもとに同義語の可能性が想定される単語の組合せを同義語候補として抽出する同義語抽出システムを開示している。

特開２０１７－４２６０号公報特開２０１３－２０４３９号公報

上述した機械学習による単語の意味認識では、例えば、文章の学習により、ある単語の前後に出現する単語の分布からベクトルを作成し、ベクトル同士の距離を類似度と捉えて、解釈する。さらに、意味の近しい事柄について述べられた文章は、類似した単語を用いて記述されていると仮定する。この仮定のもとでは、文章中に記述された単語の出現頻度から、その文章のベクトルを作成することが可能となり、文章と文章のベクトル間距離が、文書間の類似度となる。

分析レポート、技術レポート、技術論文、研究論文等、専門用語が多用された文書の学習では、名詞や動詞を、既存の辞書を用いて形態素に分割するが、専門用語は、辞書に登録されていないことが多い。また、技術レポート等で使用される単語には、例えば、ミネラルウォーターとミネラルウオーター、トリグリセライドとトリグリセリドのように、表記にゆらぎがみられる場合がある。その場合、従来の学習では、ゆらぎのある単語は別の単語として識別される。

このことは、日本語だけではなく、他の言語、例えば英語の単語にもあてはまる。例えば、organiseとorganize、emphasiseとemphasize、sulphateとsulfateのような表記のゆらぎがある。これらゆらぎのある単語を従来の手法で学習させると、別の単語ながら距離の近い(意味の近い)単語として扱われるが、結果として学習の精度が低下するという問題がある。

特許文献１は、テキストデータに含まれる、異表記された同義語の出現傾向、使用態様等に関する学習結果によって、異表記された同義語について名寄せ処理の有無を判断しており、日本語、英語等の言語に特有の表記ゆれを扱う構成を開示していない。

特許文献２の同義語抽出システムは、所定の案件に関する入力された文書から、意義は同じで語形が異なっている同義語を抽出するのみで、抽出された同義語でデータベースを整備する構成もなければ、表記ゆれに対応する構成も開示していない。

本発明は、上述した課題に鑑みなされたものであり、その目的とするところは、文章中の単語表記のゆらぎに対応した検索事例を学習の対象とする事例検索システムを提供することである。

上述した課題を解決する一手段として、本発明は、データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、前記変換により同義語に統一された単語をコーパスに蓄積する工程と、前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、前記統合された文章からなる検索対象事例を学習によってベクトル化する工程とを備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする。

上記の事例検索方法において、好ましくは、前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章である。また、好ましくは、前記同義語に統一された単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備える。また、好ましくは、前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されている。また、好ましくは、前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得する。また、好ましくは、前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備える。さらに、好ましくは、前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも１つを含む。

本発明によれば、事例データベース中の検索対象を同義語で統一された文書データとする前処理を行った後に学習によってベクトル化するので、表記ゆれに対応した文書データの学習が可能となる。

本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。事例検索システムにおける同義語統合部の構成を示すブロック図である。検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。前処理後の検索対象に対する検索処理を示すフローチャートである。事例検索システムをネットワークを介して接続した構成を示す図である。

以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図１は、本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。図１の事例検索システム１０は、入力部１、事例検索部３、出力部５を備える。また、事例検索部３は、解析部１１、特徴抽出部１３、事例判定部１５、事例抽出部１７、同義語統合部２０を備える。

事例検索システム１０は、検索対象である大量の事例が蓄積された事例データベース３０をアクセス可能に構成されている。事例検索システム１０は、検索者（ユーザ等ともいう。）が検索語として入力した検索キーワード、文章等に対して、形態素解析により所定の単語を抽出し、抽出された単語を用いて事例データベース３０中の事例を検索する。検索された事例は、文書データ等として出力部５に表示等される。

なお、本実施形態に係る事例検索システムにおける検索対象事例には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。ここで分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。

検索キーワードには、例えば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。

入力部１には、ユーザ等により、検索対象を文字、文章等で表した検索文字列（検索キーワード、検索クエリともいう。）が入力される。入力部１は、例えば、キーボード、マウス等の入力デバイス、液晶ディスプレイ等のディスプレイからなり、ディスプレイ上の入力画面を使用して検索文字列が入力される。ディスプレイは、検索結果等が表示される出力部５でもある。

解析部１１は、入力部１より入力された検索キーワードに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、検索キーワードを特徴づけるベクトル（単語べクトル、あるいは特徴べクトル）を算出する。特徴抽出部１３は、形態素解析の結果を受けて、検索キーワードの特徴を抽出する。

事例判定部１５は、特徴抽出部１３より取得した検索キーワードの特徴をもとに、事例データベース３０に格納された事例（文書データ）を検索する。事例データベース３０中の文書データは、ベクトルにより特徴づけられた文書データであり、後述する同義語に統合する前処理を行った後にベクトル化された事例データである。

すなわち、事例判定部１５は、同義語で統一された文書データと、特徴べクトルで示される検索キーワードとの類似度を算出し、それらの一致度あるいは類似度に基づいて、事例データベース３０中における、検索キーワードで示される文書データの有無を判定する。

事例抽出部１７は、事例判定部１５からの判定結果を受けて、検索クエリと類似する文書データを事例データベース３０より抽出し、それを出力部５に出力する。これによりユーザ等は、所望の事例（例えば、分析事例等）を文書データとして取得できる。

次に、本実施形態の事例検索システムを構成する同義語統合部について説明する。図２は、図１の事例検索システム１において事例データベース３０の文書中の所定の単語を同義語に統合する同義語統合部２０の構成を示すブロック図である。

図２において、同義語統合部２０の形態素解析部２３は、事例データベース３０に蓄積されているすべての事例文書（日本語文書、英語文書、日本語と英語が混在する文書等）に対して形態素解析によって単語に分割し、その単語の意味表現である単語ベクトルを構築する。ここでは、文章中に登場する単語は、その前後の語によって説明されることから、前後に出現する単語の分布から、各々の単語を表すベクトル空間を作成する。

形態素解析の結果は、各々の単語を座標軸とする多次元ベクトル空間を有するコーパス３１に、例えば単語の使用頻度等に応じてベクトルマップした単語ベクトルとして格納される。単語のベクトル空間におけるベクトル同士の距離（形態素間の関係）は、単語間の意味的な類似度を表すことになる。

ゆらぎ判定部２５は、シソーラス格納部３３を参照しながら、コーパス３１中の単語ベクトルのベクトル空間におけるベクトル同士の距離をもとに、日本語の表記が異なるも意味が同じ単語、あるいは英語の綴りが異なるも意味が同じ単語（便宜上、同意異表示語、あるいは異形同義語と呼ぶ。）を抽出する。シソーラス格納部３３は、例えば、多数の日本語と英語の単語に意味コードが付与され、それらの単語の上位・下位関係が階層的に分類された構造を有する。

なお、上述した機械翻訳を行うために、単語をその意味によって分類して配列し、同義語、類義語、反義語、対義語、上位語、下位語等をシソーラス格納部３３に格納してもよい。

ゆらぎ判定を例示すると、事例データベース３０中に「ミネラルウォーターの分析」と「ミネラルウオーターの分析」という記載が含まれている場合、その記載は形態素解析部２３での形態素解析により、「ミネラルウォーター(名詞)」「の(助詞)」「分析(名詞)」等に分解される。これらの構成要素（形態素）から助詞が除外された後、ゆらぎ判定部２５は、「ミネラルウォーター」と「ミネラルウオーター」は、それぞれの表記は異なるもベクトルの距離が近いため、ゆらぎの可能性がある名詞（異形同義語）と判定する。

他の例として、「トリグリセリドの分析」と「トリグリセライドの分析」という記載を例示できる。これらの場合も、形態素解析等により、「トリグリセリド」と「トリグリセライド」がゆらぎの可能性がある名詞（異形同義語）となる。

ゆらぎ判定部２５は、上述した、ゆらぎの可能性があるとして抽出した名詞（異形同義語）を言語変換部２７に送る。言語変換部２７は、上記抽出された、ゆらぎの可能性がある名詞に機械翻訳処理を施す。ここでの機械翻訳として既存の技術を使用する。

なお、近年における機械学習による自然言語処理を応用したニューラル機械翻訳（ＮＭＴ）の飛躍的な性能向上により、機械翻訳は大きく進歩しているが、文書中に現れる頻度の少ない専門用語、その文脈が登場する論文等の翻訳精度には課題がある。

このことから、言語変換部２７は、単語対応データセットとして大量の同義語が集積された訳語コーパス２９を参照して、ゆらぎの可能性がある単語と単語間相互の翻訳（例えば、日本語→英語、英語→日本語）を行う。訳語コーパス２９を参照した機械翻訳により、辞書にない単語であっても、その同義語へと統一できる。

機械翻訳により一意となった単語を、新たな単語として訳語コーパス２９に逐次、蓄積するようにしてもよい。また、訳語コーパス２９中の単語を同一分野の同義語で分類した構成としてもよい。

ゆらぎ判定の結果、上記の例では、言語変換部２７において、「ミネラルウォーター」と「ミネラルウオーター」は「mineral water」へと翻訳され、「トリグリセリド」と「トリグリセライド」は「triglyseride」へと翻訳される。英語の場合も同様に、英単語として綴りにゆらぎの可能性があるとされた「sulphate」と「sulfate」は、「硫酸エステル」へと翻訳される。

統合処理部３５は、事例データベース３０中において、ゆらぎの可能性がある単語を含む事例文書を、言語変換部２７による機械翻訳の結果にもとづいて同義語からなる文書に統一する。

次に、本実施形態の事例検索システムにおける検索処理手順について説明する。図３は、検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。また、図４は、前処理後の検索対象に対する検索処理を示すフローチャートである。

図３のステップＳ１１において、事例データベース３０に格納されている検索対象事例（文書データ）を、既存の辞書を使用した形態素解析により複数の単語（形態素）に分割する。続くステップＳ１３で、分割された複数の単語間のベクトルの距離等から、検索対象事例を構成する文書より所定の単語群を抽出する。

単語群は、日本語の場合、その表記にゆらぎがあることで、表記上は異なるが意味が同じ単語の集合であり、英語の場合は、綴りは異なるが意味が同じ単語の集合である。表記ゆれは、日本語の場合、送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等によって生じる。また、英語等の言語では綴りの違いによる表記ゆれ（例えば、イギリス英語とアメリカ英語）がある。

ゆらぎ（表記ゆれ）のある、統一しない単語を含む分析レポート等を学習させると、ゆらぎのあるそれぞれの単語を別単語として学習するので、ゆらぎのある一方の単語の前後に出てくる単語と、ゆらぎのある他方の単語の前後に出てくる単語が別単語として扱われ、学習されるので、学習効率が著しく低下する。

そこで、ステップＳ１５では、抽出された単語群に機械翻訳を施す。具体的には、日本語の単語群については英語に翻訳し、英語の単語群は日本語に翻訳される。これにより、日本語あるいは英語からなる単語群は、それらと同義語の関係にある英語あるいは日本語という他言語の単一の単語に変換される。そして、ステップＳ１７において、機械翻訳により同義語に統一された単語を、日英で対応する同義語リストを定義して、コーパスに蓄積する。

ステップＳ１９では、検索対象事例の文書を構成する上述の単語群を、コーパスに蓄積された単語で置換して、その文書を同義語で統合する。その結果、検索対象事例は、単語が一意に統一された文書で構成されることになる。最終的にステップＳ２１において、機械翻訳で整備されたコーパスを使用して同義語統合された文書からなる検索対象事例を、次のステップにおける学習によってベクトル化する対象として取得する。

すなわち、ステップＳ２３では、上記の前処理によって同義語統合された文書からなる検索対象事例を学習によってベクトル化する。これにより、例えば、ベクトル化された単語と事例文書を得る。同義語に統一された単語の単語ベクトル、その単語ベクトルを含む文章ベクトルを事例データベース３０に蓄積してもよい。

本実施形態の事例検索システムにおける検索処理について説明する。ユーザ等が本実施形態の事例検索システムを使用して必要な事例を取得する場合、最初に図４のステップＳ３１において、ユーザ等により検索文字列（検索キーワード）が入力される。

ステップＳ３３で、形態素解析により検索キーワードを最小単位の形態素（単語ベクトル）に分割する。ステップＳ３５では、上記のように日英で対応する同義語リストで定義した単語が蓄積されたコーパスを参照して、検索キーワードそのものが表記ゆれの可能性のある単語か、あるいは検索キーワードに表記ゆれの可能性がある単語を含むかどうかを判定する。

表記ゆれとは、日本語の場合、上述したように送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等である。その場合、ステップＳ３７において、表記ゆれのある単語を、それと同義の他の言語の単語で置換する。また、英語等の言語における綴りの違いによる表記ゆれに対しても、他の同義の言語の単語で置換する。

ステップＳ４１では、表記ゆれのない検索キーワード、あるいは、表記ゆれを同義語統合した検索キーワードにより、図３のステップＳ２３における学習によってベクトル化された検索対象事例（前処理によって同義語統合された文書からなる検索対象事例）を検索対象とする検索処理を行う。

ステップＳ４３において、ステップＳ４１における検索処理の結果を受けて、ユーザ等が入力した検索キーワードに合致する事例、あるいは検索要求に最も近い事例を出力する。検索された事例は、例えば、そのタイトル等による事例一覧の形で出力される。ユーザは、出力された事例一覧の中から適当な事例を選択する。

図５は、本実施形態の事例検索システムをネットワーク（公衆通信網）を介して接続した構成を示している。図５に示すように本実施形態に係る事例検索システム１０は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、検索結果をユーザ等に提供する。

そのため、インターネット等の情報通信ネットワーク７０を介して、事例検索システム１０と、複数のユーザ端末６０ａ…６０ｎとが通信可能に接続されている。事例検索システム１０内の通信部６１は、ネットワーク７０とのインターフェイスである。制御部６５は、事例検索部３を含む事例検索システム１０の全体の制御を司る、例えばマイクロプロセッサ等で構成される。

メモリ６７には、上述した検索対象を学習によってベクトル化する前に実行される前処理のプログラム、前処理後の検索対象に対する検索処理のプログラム等が格納されている。制御部６５は、これらのプログラムを読み出して、上述した所定の処理を実行する。

なお、事例検索システム１０全体をネットワーク７０に接続されたサーバ装置と位置づけることもできる。

以上説明したように事例データベース中の検索対象である文書データを同義語統合により同義語で統一された文書データとする前処理を行った後に、学習によってベクトル化することで、表記ゆれに対応した分析レポート等の文書データの学習が可能になる。

よって、分析レポート等を同義語で統一することで、同じ単語の周囲に出てきた単語として学習させることができ、学習効率が向上する。

また、日本語、英語等において表記が一意でない単語キーワードを用いた検索に対しても検索が可能であり、日英混合のレポートであっても検索が可能となる。

さらには、専門用語で記述された分析レポート、分析に関する特許、論文、および関連文書に特化して、学習による自然言語処理することで、類似化合物や類似分析事例をベクトルの距離で評価して、単純なキーワード検索とは異なる結果を返すことが可能となる。

また、上述した前処理後にベクトル化された分析レポート等を検索対象とすることで、確度の高い検索を簡易かつ迅速に行うことができ、得られた検索結果に対して客観的な判断が可能となる。加えて、表記ゆれ等を含む文献データの検索精度、検索効率が向上する。

１入力部
３事例検索部
５出力部
１０事例検索システム
１１解析部
１３特徴抽出部
１５事例判定部
１７事例抽出部
２０同義語統合部
２３形態素解析部
２５ゆらぎ判定部
２７言語変換部
２９訳語コーパス
３０事例データベース
３１コーパス
３３シソーラス格納部
３５統合処理部
６０ａ…６０ｎユーザ端末
６５制御部
６７メモリ
７０情報通信ネットワーク

Claims

データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、
前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、
前記変換により同義語に統一された前記単一の単語をコーパスに蓄積する工程と、
前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、
前記統合された文章からなる検索対象事例を学習によってベクトル化する工程と、
ユーザが入力した検索キーワードを受信する工程と、
前記検索キーワードを特徴付ける特徴ベクトルを算出する工程と、
前記ベクトル化された検索対象事例と前記特徴ベクトルで示される前記検索キーワードとの類似度に基づいて、前記検索キーワードと類似する検索対象事例を抽出する工程と、
を備えることを特徴とする事例検索方法。
前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章であることを特徴とする請求項１に記載の事例検索方法。
前記同義語に統一された前記単一の単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備えることを特徴とする請求項１に記載の事例検索方法。
前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されていることを特徴とする請求項３に記載の事例検索方法。
前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得することを特徴とする請求項１に記載の事例検索方法。
前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備えることを特徴とする請求項１に記載の事例検索方法。
前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも１つを含むことを特徴とする請求項１～６のいずれか１項に記載の事例検索方法。
データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、
前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、
前記変換により同義語に統一された前記単一の単語をコーパスに蓄積する工程と、
前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、
前記統合された文章からなる検索対象事例を学習によってベクトル化する工程と、
を備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする事例検索方法。