JP7167996B2 - 事例検索方法 - Google Patents

事例検索方法 Download PDF

Info

Publication number
JP7167996B2
JP7167996B2 JP2020551629A JP2020551629A JP7167996B2 JP 7167996 B2 JP7167996 B2 JP 7167996B2 JP 2020551629 A JP2020551629 A JP 2020551629A JP 2020551629 A JP2020551629 A JP 2020551629A JP 7167996 B2 JP7167996 B2 JP 7167996B2
Authority
JP
Japan
Prior art keywords
case
search
words
analysis
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020551629A
Other languages
English (en)
Other versions
JPWO2020079749A1 (ja
Inventor
健太郎 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2020079749A1 publication Critical patent/JPWO2020079749A1/ja
Application granted granted Critical
Publication of JP7167996B2 publication Critical patent/JP7167996B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、大量の検索事例から所望の事例を検索する事例検索方法に関する。
近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語(キーワード)を入力することで、文書データ等が蓄積されたデータベースに対して検索処理(検索語とのマッチング処理)が実行され、特定の条件に合致する文書データが検索結果として出力される。
大量の文書データから所望の文書を検索する方法として、従来より、自然言語処理を活用した文書データの検索が行われている。自然言語処理(NLP:Natural Language Processing)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。
人工知能分野の自然言語処理では、機械学習を応用した単語のベクトル化が中心的な技術となっている。例えば、自然言語処理で用いられる「形態素解析」は、文章やフレーズを、意味を持つ最小限の単位(単語)に分割し、品詞等を判別する処理である。
機械学習とは、データから反復的に学習し、そこに潜むパターン(特徴)を見つけ出して、そのデータを分類することである。学習した結果を新たなデータに当てはめて予測することが可能になる。自然言語処理における機械学習では、大量の文章情報を処理(ニューラルネットワークで学習)し、前後に出現する単語の分布からある単語を表すベクトル空間を作成する。
例えば、特許文献1は、検索サイトにおいて、入力された検索クエリが異なる表記であっても、その検索クエリの持つ意味が同じであれば同じ検索結果を返すという処理を行うため、異表記される同義語が含まれる文に対応するテキストデータにおける同義語の前後の文脈との相関性に基づいて、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定し、その判定結果に基づく情報処理を開示している。
特許文献2は、文書を構成する各文章に形態素解析や構文解析を適用して、単語概念ベクトル間の類似性を所定の判定基準によって判定し、ベクトルの意味的な類似性をもとに同義語の可能性が想定される単語の組合せを同義語候補として抽出する同義語抽出システムを開示している。
特開2017-4260号公報 特開2013-20439号公報
上述した機械学習による単語の意味認識では、例えば、文章の学習により、ある単語の前後に出現する単語の分布からベクトルを作成し、ベクトル同士の距離を類似度と捉えて、解釈する。さらに、意味の近しい事柄について述べられた文章は、類似した単語を用いて記述されていると仮定する。この仮定のもとでは、文章中に記述された単語の出現頻度から、その文章のベクトルを作成することが可能となり、文章と文章のベクトル間距離が、文書間の類似度となる。
分析レポート、技術レポート、技術論文、研究論文等、専門用語が多用された文書の学習では、名詞や動詞を、既存の辞書を用いて形態素に分割するが、専門用語は、辞書に登録されていないことが多い。また、技術レポート等で使用される単語には、例えば、ミネラルウォーターとミネラルウオーター、トリグリセライドとトリグリセリドのように、表記にゆらぎがみられる場合がある。その場合、従来の学習では、ゆらぎのある単語は別の単語として識別される。
このことは、日本語だけではなく、他の言語、例えば英語の単語にもあてはまる。例えば、organiseとorganize、emphasiseとemphasize、sulphateとsulfateのような表記のゆらぎがある。これらゆらぎのある単語を従来の手法で学習させると、別の単語ながら距離の近い(意味の近い)単語として扱われるが、結果として学習の精度が低下するという問題がある。
特許文献1は、テキストデータに含まれる、異表記された同義語の出現傾向、使用態様等に関する学習結果によって、異表記された同義語について名寄せ処理の有無を判断しており、日本語、英語等の言語に特有の表記ゆれを扱う構成を開示していない。
特許文献2の同義語抽出システムは、所定の案件に関する入力された文書から、意義は同じで語形が異なっている同義語を抽出するのみで、抽出された同義語でデータベースを整備する構成もなければ、表記ゆれに対応する構成も開示していない。
本発明は、上述した課題に鑑みなされたものであり、その目的とするところは、文章中の単語表記のゆらぎに対応した検索事例を学習の対象とする事例検索システムを提供することである。
上述した課題を解決する一手段として、本発明は、データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、前記変換により同義語に統一された単語をコーパスに蓄積する工程と、前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、前記統合された文章からなる検索対象事例を学習によってベクトル化する工程とを備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする。
上記の事例検索方法において、好ましくは、前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章である。また、好ましくは、前記同義語に統一された単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備える。また、好ましくは、前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されている。また、好ましくは、前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得する。また、好ましくは、前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備える。さらに、好ましくは、前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも1つを含む。
本発明によれば、事例データベース中の検索対象を同義語で統一された文書データとする前処理を行った後に学習によってベクトル化するので、表記ゆれに対応した文書データの学習が可能となる。
本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。 事例検索システムにおける同義語統合部の構成を示すブロック図である。 検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。 前処理後の検索対象に対する検索処理を示すフローチャートである。 事例検索システムをネットワークを介して接続した構成を示す図である。
以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図1は、本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。図1の事例検索システム10は、入力部1、事例検索部3、出力部5を備える。また、事例検索部3は、解析部11、特徴抽出部13、事例判定部15、事例抽出部17、同義語統合部20を備える。
事例検索システム10は、検索対象である大量の事例が蓄積された事例データベース30をアクセス可能に構成されている。事例検索システム10は、検索者(ユーザ等ともいう。)が検索語として入力した検索キーワード、文章等に対して、形態素解析により所定の単語を抽出し、抽出された単語を用いて事例データベース30中の事例を検索する。検索された事例は、文書データ等として出力部5に表示等される。
なお、本実施形態に係る事例検索システムにおける検索対象事例には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。ここで分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。
検索キーワードには、例えば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。
入力部1には、ユーザ等により、検索対象を文字、文章等で表した検索文字列(検索キーワード、検索クエリともいう。)が入力される。入力部1は、例えば、キーボード、マウス等の入力デバイス、液晶ディスプレイ等のディスプレイからなり、ディスプレイ上の入力画面を使用して検索文字列が入力される。ディスプレイは、検索結果等が表示される出力部5でもある。
解析部11は、入力部1より入力された検索キーワードに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、検索キーワードを特徴づけるベクトル(単語べクトル、あるいは特徴べクトル)を算出する。特徴抽出部13は、形態素解析の結果を受けて、検索キーワードの特徴を抽出する。
事例判定部15は、特徴抽出部13より取得した検索キーワードの特徴をもとに、事例データベース30に格納された事例(文書データ)を検索する。事例データベース30中の文書データは、ベクトルにより特徴づけられた文書データであり、後述する同義語に統合する前処理を行った後にベクトル化された事例データである。
すなわち、事例判定部15は、同義語で統一された文書データと、特徴べクトルで示される検索キーワードとの類似度を算出し、それらの一致度あるいは類似度に基づいて、事例データベース30中における、検索キーワードで示される文書データの有無を判定する。
事例抽出部17は、事例判定部15からの判定結果を受けて、検索クエリと類似する文書データを事例データベース30より抽出し、それを出力部5に出力する。これによりユーザ等は、所望の事例(例えば、分析事例等)を文書データとして取得できる。
次に、本実施形態の事例検索システムを構成する同義語統合部について説明する。図2は、図1の事例検索システム1において事例データベース30の文書中の所定の単語を同義語に統合する同義語統合部20の構成を示すブロック図である。
図2において、同義語統合部20の形態素解析部23は、事例データベース30に蓄積されているすべての事例文書(日本語文書、英語文書、日本語と英語が混在する文書等)に対して形態素解析によって単語に分割し、その単語の意味表現である単語ベクトルを構築する。ここでは、文章中に登場する単語は、その前後の語によって説明されることから、前後に出現する単語の分布から、各々の単語を表すベクトル空間を作成する。
形態素解析の結果は、各々の単語を座標軸とする多次元ベクトル空間を有するコーパス31に、例えば単語の使用頻度等に応じてベクトルマップした単語ベクトルとして格納される。単語のベクトル空間におけるベクトル同士の距離(形態素間の関係)は、単語間の意味的な類似度を表すことになる。
ゆらぎ判定部25は、シソーラス格納部33を参照しながら、コーパス31中の単語ベクトルのベクトル空間におけるベクトル同士の距離をもとに、日本語の表記が異なるも意味が同じ単語、あるいは英語の綴りが異なるも意味が同じ単語(便宜上、同意異表示語、あるいは異形同義語と呼ぶ。)を抽出する。シソーラス格納部33は、例えば、多数の日本語と英語の単語に意味コードが付与され、それらの単語の上位・下位関係が階層的に分類された構造を有する。
なお、上述した機械翻訳を行うために、単語をその意味によって分類して配列し、同義語、類義語、反義語、対義語、上位語、下位語等をシソーラス格納部33に格納してもよい。
ゆらぎ判定を例示すると、事例データベース30中に「ミネラルウォーターの分析」と「ミネラルウオーターの分析」という記載が含まれている場合、その記載は形態素解析部23での形態素解析により、「ミネラルウォーター(名詞)」「の(助詞)」「分析(名詞)」等に分解される。これらの構成要素(形態素)から助詞が除外された後、ゆらぎ判定部25は、「ミネラルウォーター」と「ミネラルウオーター」は、それぞれの表記は異なるもベクトルの距離が近いため、ゆらぎの可能性がある名詞(異形同義語)と判定する。
他の例として、「トリグリセリドの分析」と「トリグリセライドの分析」という記載を例示できる。これらの場合も、形態素解析等により、「トリグリセリド」と「トリグリセライド」がゆらぎの可能性がある名詞(異形同義語)となる。
ゆらぎ判定部25は、上述した、ゆらぎの可能性があるとして抽出した名詞(異形同義語)を言語変換部27に送る。言語変換部27は、上記抽出された、ゆらぎの可能性がある名詞に機械翻訳処理を施す。ここでの機械翻訳として既存の技術を使用する。
なお、近年における機械学習による自然言語処理を応用したニューラル機械翻訳(NMT)の飛躍的な性能向上により、機械翻訳は大きく進歩しているが、文書中に現れる頻度の少ない専門用語、その文脈が登場する論文等の翻訳精度には課題がある。
このことから、言語変換部27は、単語対応データセットとして大量の同義語が集積された訳語コーパス29を参照して、ゆらぎの可能性がある単語と単語間相互の翻訳(例えば、日本語→英語、英語→日本語)を行う。訳語コーパス29を参照した機械翻訳により、辞書にない単語であっても、その同義語へと統一できる。
機械翻訳により一意となった単語を、新たな単語として訳語コーパス29に逐次、蓄積するようにしてもよい。また、訳語コーパス29中の単語を同一分野の同義語で分類した構成としてもよい。
ゆらぎ判定の結果、上記の例では、言語変換部27において、「ミネラルウォーター」と「ミネラルウオーター」は「mineral water」へと翻訳され、「トリグリセリド」と「トリグリセライド」は「triglyseride」へと翻訳される。英語の場合も同様に、英単語として綴りにゆらぎの可能性があるとされた「sulphate」と「sulfate」は、「硫酸エステル」へと翻訳される。
統合処理部35は、事例データベース30中において、ゆらぎの可能性がある単語を含む事例文書を、言語変換部27による機械翻訳の結果にもとづいて同義語からなる文書に統一する。
次に、本実施形態の事例検索システムにおける検索処理手順について説明する。図3は、検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。また、図4は、前処理後の検索対象に対する検索処理を示すフローチャートである。
図3のステップS11において、事例データベース30に格納されている検索対象事例(文書データ)を、既存の辞書を使用した形態素解析により複数の単語(形態素)に分割する。続くステップS13で、分割された複数の単語間のベクトルの距離等から、検索対象事例を構成する文書より所定の単語群を抽出する。
単語群は、日本語の場合、その表記にゆらぎがあることで、表記上は異なるが意味が同じ単語の集合であり、英語の場合は、綴りは異なるが意味が同じ単語の集合である。表記ゆれは、日本語の場合、送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等によって生じる。また、英語等の言語では綴りの違いによる表記ゆれ(例えば、イギリス英語とアメリカ英語)がある。
ゆらぎ(表記ゆれ)のある、統一しない単語を含む分析レポート等を学習させると、ゆらぎのあるそれぞれの単語を別単語として学習するので、ゆらぎのある一方の単語の前後に出てくる単語と、ゆらぎのある他方の単語の前後に出てくる単語が別単語として扱われ、学習されるので、学習効率が著しく低下する。
そこで、ステップS15では、抽出された単語群に機械翻訳を施す。具体的には、日本語の単語群については英語に翻訳し、英語の単語群は日本語に翻訳される。これにより、日本語あるいは英語からなる単語群は、それらと同義語の関係にある英語あるいは日本語という他言語の単一の単語に変換される。そして、ステップS17において、機械翻訳により同義語に統一された単語を、日英で対応する同義語リストを定義して、コーパスに蓄積する。
ステップS19では、検索対象事例の文書を構成する上述の単語群を、コーパスに蓄積された単語で置換して、その文書を同義語で統合する。その結果、検索対象事例は、単語が一意に統一された文書で構成されることになる。最終的にステップS21において、機械翻訳で整備されたコーパスを使用して同義語統合された文書からなる検索対象事例を、次のステップにおける学習によってベクトル化する対象として取得する。
すなわち、ステップS23では、上記の前処理によって同義語統合された文書からなる検索対象事例を学習によってベクトル化する。これにより、例えば、ベクトル化された単語と事例文書を得る。同義語に統一された単語の単語ベクトル、その単語ベクトルを含む文章ベクトルを事例データベース30に蓄積してもよい。
本実施形態の事例検索システムにおける検索処理について説明する。ユーザ等が本実施形態の事例検索システムを使用して必要な事例を取得する場合、最初に図4のステップS31において、ユーザ等により検索文字列(検索キーワード)が入力される。
ステップS33で、形態素解析により検索キーワードを最小単位の形態素(単語ベクトル)に分割する。ステップS35では、上記のように日英で対応する同義語リストで定義した単語が蓄積されたコーパスを参照して、検索キーワードそのものが表記ゆれの可能性のある単語か、あるいは検索キーワードに表記ゆれの可能性がある単語を含むかどうかを判定する。
表記ゆれとは、日本語の場合、上述したように送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等である。その場合、ステップS37において、表記ゆれのある単語を、それと同義の他の言語の単語で置換する。また、英語等の言語における綴りの違いによる表記ゆれに対しても、他の同義の言語の単語で置換する。
ステップS41では、表記ゆれのない検索キーワード、あるいは、表記ゆれを同義語統合した検索キーワードにより、図3のステップS23における学習によってベクトル化された検索対象事例(前処理によって同義語統合された文書からなる検索対象事例)を検索対象とする検索処理を行う。
ステップS43において、ステップS41における検索処理の結果を受けて、ユーザ等が入力した検索キーワードに合致する事例、あるいは検索要求に最も近い事例を出力する。検索された事例は、例えば、そのタイトル等による事例一覧の形で出力される。ユーザは、出力された事例一覧の中から適当な事例を選択する。
図5は、本実施形態の事例検索システムをネットワーク(公衆通信網)を介して接続した構成を示している。図5に示すように本実施形態に係る事例検索システム10は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、検索結果をユーザ等に提供する。
そのため、インターネット等の情報通信ネットワーク70を介して、事例検索システム10と、複数のユーザ端末60a…60nとが通信可能に接続されている。事例検索システム10内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、事例検索部3を含む事例検索システム10の全体の制御を司る、例えばマイクロプロセッサ等で構成される。
メモリ67には、上述した検索対象を学習によってベクトル化する前に実行される前処理のプログラム、前処理後の検索対象に対する検索処理のプログラム等が格納されている。制御部65は、これらのプログラムを読み出して、上述した所定の処理を実行する。
なお、事例検索システム10全体をネットワーク70に接続されたサーバ装置と位置づけることもできる。
以上説明したように事例データベース中の検索対象である文書データを同義語統合により同義語で統一された文書データとする前処理を行った後に、学習によってベクトル化することで、表記ゆれに対応した分析レポート等の文書データの学習が可能になる。
よって、分析レポート等を同義語で統一することで、同じ単語の周囲に出てきた単語として学習させることができ、学習効率が向上する。
また、日本語、英語等において表記が一意でない単語キーワードを用いた検索に対しても検索が可能であり、日英混合のレポートであっても検索が可能となる。
さらには、専門用語で記述された分析レポート、分析に関する特許、論文、および関連文書に特化して、学習による自然言語処理することで、類似化合物や類似分析事例をベクトルの距離で評価して、単純なキーワード検索とは異なる結果を返すことが可能となる。
また、上述した前処理後にベクトル化された分析レポート等を検索対象とすることで、確度の高い検索を簡易かつ迅速に行うことができ、得られた検索結果に対して客観的な判断が可能となる。加えて、表記ゆれ等を含む文献データの検索精度、検索効率が向上する。
1 入力部
3 事例検索部
5 出力部
10 事例検索システム
11 解析部
13 特徴抽出部
15 事例判定部
17 事例抽出部
20 同義語統合部
23 形態素解析部
25 ゆらぎ判定部
27 言語変換部
29 訳語コーパス
30 事例データベース
31 コーパス
33 シソーラス格納部
35 統合処理部
60a…60n ユーザ端末
65 制御部
67 メモリ
70 情報通信ネットワーク

Claims (8)

  1. データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
    前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
    前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、
    前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、
    前記変換により同義語に統一された前記単一の単語をコーパスに蓄積する工程と、
    前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、
    前記統合された文章からなる検索対象事例を学習によってベクトル化する工程と、
    ユーザが入力した検索キーワードを受信する工程と、
    前記検索キーワードを特徴付ける特徴ベクトルを算出する工程と、
    前記ベクトル化された検索対象事例と前記特徴ベクトルで示される前記検索キーワードとの類似度に基づいて、前記検索キーワードと類似する検索対象事例を抽出する工程と、
    を備えることを特徴とする事例検索方法。
  2. 前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章であることを特徴とする請求項1に記載の事例検索方法。
  3. 前記同義語に統一された前記単一の単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備えることを特徴とする請求項1に記載の事例検索方法。
  4. 前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されていることを特徴とする請求項3に記載の事例検索方法。
  5. 前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得することを特徴とする請求項1に記載の事例検索方法。
  6. 前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備えることを特徴とする請求項1に記載の事例検索方法。
  7. 前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも1つを含むことを特徴とする請求項1~6のいずれか1項に記載の事例検索方法。
  8. データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
    前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
    前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、
    前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、
    前記変換により同義語に統一された前記単一の単語をコーパスに蓄積する工程と、
    前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、
    前記統合された文章からなる検索対象事例を学習によってベクトル化する工程と、
    を備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする事例検索方法。
JP2020551629A 2018-10-16 2018-10-16 事例検索方法 Active JP7167996B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/038474 WO2020079749A1 (ja) 2018-10-16 2018-10-16 事例検索方法

Publications (2)

Publication Number Publication Date
JPWO2020079749A1 JPWO2020079749A1 (ja) 2021-11-18
JP7167996B2 true JP7167996B2 (ja) 2022-11-09

Family

ID=70283419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020551629A Active JP7167996B2 (ja) 2018-10-16 2018-10-16 事例検索方法

Country Status (3)

Country Link
US (1) US20220027397A1 (ja)
JP (1) JP7167996B2 (ja)
WO (1) WO2020079749A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002257757A (ja) 2001-03-05 2002-09-11 Rigaku Industrial Co 蛍光x線分析装置
JP2002259445A (ja) 2001-03-02 2002-09-13 Fuji Xerox Co Ltd 対応カテゴリ検索システムおよび方法
JP2006331245A (ja) 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2010170306A (ja) 2009-01-22 2010-08-05 Toshiba Corp 対訳可逆性適性判断システムおよび機械翻訳システム
JP2011175306A (ja) 2008-05-13 2011-09-08 Nec Corp 情報処理装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020004786A1 (en) * 2000-06-21 2002-01-10 Olympus Optical Co Ltd Information offering system
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US8027876B2 (en) * 2005-08-08 2011-09-27 Yoogli, Inc. Online advertising valuation apparatus and method
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9235806B2 (en) * 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US20160048936A1 (en) * 2013-03-15 2016-02-18 Search For Yeti, LLC Computer-Implemented Methods of and Systems for Analyzing Patent Claims
KR20140121580A (ko) * 2013-04-08 2014-10-16 한국전자통신연구원 자동 번역 및 통역 장치 및 그 방법
US20150127634A1 (en) * 2013-11-07 2015-05-07 Ricoh Company, Ltd. Electronic document retrieval and reporting
US9836529B2 (en) * 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
JP6824062B2 (ja) * 2017-02-14 2021-02-03 日本電子株式会社 イオン化法選択支援装置及び方法
US11256803B2 (en) * 2017-03-03 2022-02-22 Nippon Telegraph And Telephone Corporation Malware detection: selection apparatus, selection method, and selection program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259445A (ja) 2001-03-02 2002-09-13 Fuji Xerox Co Ltd 対応カテゴリ検索システムおよび方法
JP2002257757A (ja) 2001-03-05 2002-09-11 Rigaku Industrial Co 蛍光x線分析装置
JP2006331245A (ja) 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2011175306A (ja) 2008-05-13 2011-09-08 Nec Corp 情報処理装置
JP2010170306A (ja) 2009-01-22 2010-08-05 Toshiba Corp 対訳可逆性適性判断システムおよび機械翻訳システム

Also Published As

Publication number Publication date
WO2020079749A1 (ja) 2020-04-23
JPWO2020079749A1 (ja) 2021-11-18
US20220027397A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
CN115186050B (zh) 基于自然语言处理的选题推荐方法、系统及相关设备
JP2011118689A (ja) 検索方法及びシステム
Hazman et al. Ontology learning from domain specific web documents
Abdurakhmonova et al. Uzbek electronic corpus as a tool for linguistic analysis
JP7167997B2 (ja) 文献検索方法および文献検索システム
Ahmad et al. Semantic-based ontology for Malay Qur'an reader
RU2563148C2 (ru) Система и метод семантического поиска
JP7167996B2 (ja) 事例検索方法
Mahajani et al. Ranking-based sentence retrieval for text summarization
El Idrissi et al. HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information
Baisa et al. Turkic language support in Sketch Engine
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
Ferilli et al. On Frequency-Based Approaches to Learning Stopwords and the Reliability of Existing Resources—A Study on Italian Language
Terekhov et al. Semantic Search System with Metagraph Knowledge Base and Natural Language Processing
JP7078126B2 (ja) 事例検索方法
Turenne et al. Exploration of a balanced reference corpus with a wide variety of text mining tools
Mezghanni et al. Information retrieval from unstructured Arabic legal data
Princy et al. The process of converting natural language to SQLQuery.
Kim et al. Translation Memory Retrieval Using Lucene
ISLAM QUESTION ANSWERING SYSTEM FROM UNSTRUCTURED DOCUMENTS FOR BANGLA LANGUAGE
Audeh et al. Comparative Study of Unsupervised Keyword Extraction Methods for Job Recommendation in an Industrial Environment
Ajit et al. The Process Of Converting Natural Language To Sqlquery
El idrissi esserhrouchni et al. OntologyLine: A New Framework for Learning Non-taxonomic Relations of Domain Ontology
Kahlawi An ontology-driven DBpedia quality enhancement to support Entity Annotation for Arabic Text

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221010

R151 Written notification of patent or utility model registration

Ref document number: 7167996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151