JP2020135567A - 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム - Google Patents

同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム Download PDF

Info

Publication number
JP2020135567A
JP2020135567A JP2019029885A JP2019029885A JP2020135567A JP 2020135567 A JP2020135567 A JP 2020135567A JP 2019029885 A JP2019029885 A JP 2019029885A JP 2019029885 A JP2019029885 A JP 2019029885A JP 2020135567 A JP2020135567 A JP 2020135567A
Authority
JP
Japan
Prior art keywords
compound word
compound
noun
occurrence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019029885A
Other languages
English (en)
Other versions
JP7147625B2 (ja
Inventor
鎮成 齋藤
Shigenari Saito
鎮成 齋藤
宮尾 浩
Hiroshi Miyao
浩 宮尾
須永 聡
Satoshi Sunaga
聡 須永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019029885A priority Critical patent/JP7147625B2/ja
Priority to US17/431,495 priority patent/US11900055B2/en
Priority to PCT/JP2020/004114 priority patent/WO2020170804A1/ja
Publication of JP2020135567A publication Critical patent/JP2020135567A/ja
Application granted granted Critical
Publication of JP7147625B2 publication Critical patent/JP7147625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書から、複合語の同義語を精度よく抽出する。【解決手段】同義語抽出装置は、文書に含まれる複合語それぞれについて、複合語を構成する名詞の種類がサ変名詞かサ変名詞以外の名詞かを判定し、複合語を構成する名詞の種類の並びのパターンを判断する。そして、同義語抽出装置は、文書から上記の名詞の種類の並びのパターンが同じ複合語群を抽出し、さらにその中から、先頭または末尾の単語が同じ複合語を抽出する。次に、同義語抽出装置は、名詞の並びのパターンが同じ、かつ、先頭または末尾の単語が同じ複合語群について、当該複合語と同じ文に登場する名詞を成分とする共起ベクトルを作成し、複合語の共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する。【選択図】図1

Description

本発明は、同義語抽出装置、同義語抽出方法、および、同義語抽出プログラムに関する。
例えば、要件定義書等の開発文書を作成する際、文書内の単語の統一性を保持して記載することは、後工程における文書レビュー時の稼働軽減や仕様の誤認の防止のため重要である。ここで、既存の文書校正ツールでは、内部辞書により一般的な単体語の不統一(例えば、「監督」と「管理」等)を発見可能である。しかし、主に複合語で構成される専門用語に関しては内部辞書に登録されておらず、上記のような単語の不統一を発見しにくい。
そこで、文書内で複合語についても不統一となっている単語を発見するため、複合語の単語同士の類似度を用いて、同義語となる複合語を抽出する手法がある。ここでの複合語の単語同士の類似度の算出には、複合語の周辺に共起する語をベクトル成分とした共起ベクトルを用いる。つまり、各複合語の共起ベクトルを作成すると、各複合語の共起ベクトル同士の類似度を算出し、算出した類似度が所定値以上の複合語を同義語として抽出する。
特許第5754019号公報
宮崎正弘、「係り受け解析を用いた複合語の自動分割法」、情報処理学会文誌、Vol.25 No.6 Nov.1984 佐藤雅彦他、「助詞で結合された名詞句の意味的な類似判別法」、The 18th Annual Conference of the Japanese Society for Artificial Intelligence、2004
しかし、従来技術において、複合語の共起ベクトルのみで複合語同士の類似度を算出すると、類似度の算出精度が必ずしも高くないため、文書から複合語の同義語を精度よく抽出できないという問題がある。そこで、本発明は、前記した問題を解決し、複合語の同義語を精度よく抽出することを課題とする。
前記した課題を解決するため、本発明は、文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出部と、前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出部と、前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、を備えることを特徴とする。
本発明によれば、複合語の同義語を精度よく抽出することができる。
図1は、第1の実施形態の概要を説明するための図である。 図2は、第1の実施形態の同義語抽出装置の構成例を示す図である。 図3は、図2の同義語抽出装置の処理手順の例を示すフローチャートである。 図4は、第2の同義語抽出装置における共起ベクトルの作成例を説明するための図である。 図5は、同義語抽出プログラムを実行するコンピュータの例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)を第1の実施形態および第2の実施形態に分けて説明する。本発明は、各実施形態に限定されない。
[第1の実施形態]
まず、図1を用いて第1の実施形態の同義語抽出装置の概要を説明する。同義語抽出装置は、所定の文書から複合語の同義語を抽出する。ここでの複合語とは、複数の名詞から構成される語であり、例えば、「ファイル更新」や「課金方式」といった語である。
同義語抽出装置は、まず、同義語の抽出対象の文書から複合語を抽出する。そして、同義語抽出装置は、抽出した複合語について、以下の(A)および(B)の処理により抽出した複合語を同義語の第一候補とする。
すなわち、同義語抽出装置は、まず、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する((A))。名詞の細分類パターンとは、複合語を構成する名詞の種類(サ変名詞か一般名詞(サ変名詞以外の名詞)か)の並びのパターンである。なお、以下の説明におけるサ変名詞とは、動詞「する」に接続してサ行変格活用の動詞となりうる名詞である。例えば、上記の「ファイル更新」に含まれる「更新」はサ変名詞である。
まず、同義語抽出装置は、複合語を構成する名詞それぞれの種類がサ変名詞か一般名詞(サ変名詞以外の名詞)かを判定する。そして、同義語抽出装置は、上記の判定結果に基づき各複合語を、図1の(1)〜(4)に示すいずれかの細分類パターンに分類する。
例えば、同義語抽出装置は、「ファイル更新」や「データベース更新」という複合語は、一般名詞+サ変名詞なので、一般名詞+サ変名詞(+サ変名詞)のパターン((1))に分類する。また、同義語抽出装置は、「課金方式」や「保留状態」という複合語は、サ変名詞+一般名詞なので、サ変名詞(+サ変名詞)+一般名詞のパターン((2))に分類する。
さらに、同義語抽出装置は、「トラヒック条件」や「データフォーマット」という複合語は、一般名詞+一般名詞なので、一般名詞+一般名詞(+一般名詞)のパターン((3))に分類する。また、同義語抽出装置は、「再開制御」という複合語は、サ変名詞+サ変名詞なので、サ変名詞+サ変名詞(+サ変名詞)のパターン((4))に分類する。
次に、同義語抽出装置は、上記の(A)で抽出した同じパターン(細分類パターン)の複合語の中で、複合語を構成する名詞の先頭または最終の名詞が同じ複合語を抽出する((B))。
例えば、「データベース更新」という語は、一般名詞+サ変名詞なので、上記の細分類パターンの(1)に該当する。よって、同義語抽出装置は、上記の細分類パターンの(1)に該当する複合語群から、「データベース更新」と先頭の語(「データベース」)が共通する、「データベース変更」と「データベース構築」とを抽出する。
また、同義語抽出装置は、上記の細分類パターンの(1)に該当する複合語群から、「データベース更新」と最後の語(「更新」)が共通する、「ファイル更新」と「メモリ更新」と「DB更新」とを抽出する。そして、同義語抽出装置は、抽出したこれらの複合語を、「データベース更新」の同義語の第一候補として抽出する。
次に、同義語抽出装置は、抽出した第一候補の各複合語に関して、当該複合語と同じ文に共起する名詞の共起ベクトルを抽出し、各複合語の共起ベクトル同士の類似度を算出し、類似度が閾値以上の複合語をユーザに提示する。
例えば、「データベース更新」に対する、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「DB更新」の類似度がそれぞれ符号101に示す値であった場合を考える。この場合、同義語抽出装置は、「データベース更新」との類似度が閾値以上の複合語である「データベース変更」と「DB更新」とを、「データベース更新」の同義語としてユーザに提示する。このようにすることで同義語抽出装置は、複合語の同義語を精度よく抽出することができる。
次に、同義語抽出装置の構成例を説明する。同義語抽出装置10は、例えば、図2に示すように、入出力部11と、記憶部12と、制御部13とを備える。
入出力部11は、各種データの入出力を司る。例えば、入出力部11は、同義語の抽出対象となる文書データ(例えば、対象文書コーパス)の入力を受け付けたり、同義語と判断された複合語群を出力したりする。
記憶部12は、同義語の抽出処理に用いる各種データを記憶する。記憶部12は、例えば、入出力部11経由で入力された、同義語の抽出対象となる文書データである対象文書コーパスを記憶する。
制御部13は、同義語抽出装置10全体の制御を司る。この制御部13は、例えば、複合語抽出部131と、名詞判定部(判定部)132と、第1の抽出部133と、第2の抽出部134と、共起ベクトル作成部135と、類似度算出部136と、同義語出力部137とを備える。
複合語抽出部131は、同義語の抽出対象の文書(例えば、対象文書コーパス)から複合語を抽出する。例えば、複合語抽出部131は、対象文書のコーパスの形態素解析を行い、名詞が連続したものを連結し、複合語として抽出する。
名詞判定部132は、複合語抽出部131により抽出された複合語それぞれについて、当該複合語を構成する名詞の種類がサ変名詞か一般名詞かを判定する。
第1の抽出部133は、複合語それぞれについて当該複合語を構成する名詞の種類の並びのパターン(細分類パターン)が、前記した(1)〜(4)に示すどのパターンに該当するかを判定する。そして、第1の抽出部133は、同じ細分類パターンに該当する複合語群を抽出する。
第2の抽出部134は、第1の抽出部133により抽出された細分類パターンが同じ複合語群から、先頭または末尾の単語が同じ複合語を抽出する。
例えば、第2の抽出部134は、細分類パターンが、(1)一般名詞+サ変名詞(+サ変名詞)に該当する「データベース更新」について、同じ細分類パターン(1)に属する複合語群から、先頭の語が「データベース」である複合語と、末尾(最終)の語が「更新」である複合語とを抽出する。
なお、複合語が3以上の語から構成される場合も考えられる。この場合、第2の抽出部134は、複合語の末尾の語より前の語群を先頭の語として抽出する。例えば、「データベース更新規制」という複合語について、第2の抽出部134は末尾の語「規制」より前の「データベース更新」を先頭の語として抽出する。
共起ベクトル作成部135は、第2の抽出部134により抽出された複合語それぞれの共起ベクトルを作成する。具体的には、共起ベクトル作成部135は、第2の抽出部134により抽出された複合語(つまり、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語)それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。例えば、共起ベクトル作成部135は、上記の「データベース更新」、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「DB更新」それぞれの共起ベクトルを作成する。
例えば、共起ベクトル作成部135が「ファイル更新」の共起ベクトルを作成する場合を考える。この場合、「ファイル更新」が含まれる文と同じ文に共起する名詞が「転送」、「系切替え」、「再開」、「異世代」、「サービス中断」であり、当該文における各名詞の登場回数がそれぞれ「2」、「5」、「3」、「2」、「3」であるとき、共起ベクトル作成部135は、図4の符号401に示す共起ベクトルを作成する。
なお、共起ベクトル作成部135は、複合語の共起ベクトルを作成する際、共起する名詞を抽出する範囲は、当該複合語が含まれる文と同じ文でもよいし、当該複合語が含まれる段落と同じ段落でもよいし、当該複合語が含まれる文書と同じ文書でもよい。
図2の説明に戻る。類似度算出部136は、第2の抽出部134により抽出された複合語それぞれの共起ベクトル同士の類似度を算出する。つまり、類似度算出部136は、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語それぞれについて、当該複合語の共起ベクトルを用いて複合語同士の類似度を算出する。
同義語出力部137は、類似度算出部136により算出された類似度が所定の閾値以上の複合語群を同義語として出力する。例えば、同義語出力部137は、「データベース更新」との類似度が閾値以上の複合語が「データベース変更」と「DB更新」であった場合、「データベース変更」と「DB更新」とを「データベース更新」の同義語として出力する。
このような同義語抽出装置によれば、複合語の同義語を精度よく抽出することができる。
[処理手順の例]
次に、図3を用いて、同義語抽出装置10の処理手順の例を説明する。まず、同義語抽出装置10の複合語抽出部131は、対象文書コーパスの形態素解析等を行うことにより、対象文書コーパスから複合語を抽出する(S1)。そして、名詞判定部132は、S1で抽出された複合語を構成する名詞の種類(サ変名詞か一般名詞か)を判定する(S2)。
S2の後、第1の抽出部133は、S2における名詞の種類の判定結果に基づき、S1で抽出された複合語の中から、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する(S3)。そして、第2の抽出部134は、S3で抽出された細分類パターンが同じ複合語の中で、複合語を構成する先頭または最終の名詞が同じ複合語を抽出する(S4)。
S4の後、共起ベクトル作成部135は、S4で抽出された複合語それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する(S5:複合語の共起ベクトルを作成)。
S5の後、類似度算出部136は、S4で抽出された複合語の共起ベクトル同士の類似度を算出する(S6)。そして、同義語出力部137は、S6で算出された類似度が所定の閾値以上の複合語を同義語として出力する(S7)。
このようにすることで、同義語抽出装置10は、複合語の同義語を精度よく抽出することができる。
[第2の実施形態]
なお、同義語抽出装置10が、複合語の共起ベクトルを作成する際、複合語(例えば、「ファイル更新」)のみならず当該複合語を構成する名詞の間に格助詞(例えば、「の」や「を」)を加えた文字列(例えば、「ファイルを更新」および「ファイルの更新」)についても共起ベクトルを作成し、これらの共起ベクトルを重ね合わせた(加算した)共起ベクトルに基づき、複合語同士の類似度を算出してもよい。このようにすることで、同義語抽出装置10は、複合語の同義語をより精度よく抽出できる。
以下、第2の実施形態の同義語抽出装置10の共起ベクトル作成部135が、上記の文字列の共起ベクトルを重ね合わせた共起ベクトル(重ね合わせ共起ベクトル)を作成する手順を説明する。まず、共起ベクトル作成部135が、図1の(1)に示す細分類パターン(一般名詞+サ変名詞(+サ変名詞))に該当する複合語の重ね合わせ共起ベクトルを作成する場合について考える。
図1の(1)に示す細分類パターンに該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部135は、複合語の「名詞」の間に「の」や「を」を加えた文字列を作成し、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。
例えば、共起ベクトル作成部135は、「ファイル更新」について、まず「ファイル更新」に含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル401を作成する。
また、共起ベクトル作成部135は「ファイル更新」を構成する「ファイル」と「更新」との間に格助詞「を」を加えた「ファイルを更新」という文字列を作成する。そして、共起ベクトル作成部135は、この「ファイルを更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル402を作成する。
さらに、共起ベクトル作成部135は、「ファイル」と「更新」との間に格助詞「の」を加えた「ファイルの更新」という文字列を作成する。そして、共起ベクトル作成部135は、この「ファイルの更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル403を作成する。そして、共起ベクトル作成部135は、上記の共起ベクトル401〜403を重ね合わせた共起ベクトル404を作成する。
その後、類似度算出部136は、複合語「ファイル更新」の共起ベクトルとして、上記の重ね合わせを行った共起ベクトル404を用いて、複合語同士の類似度算出を行う。
また、図1の(2)に示す細分類パターン(サ変名詞(+サ変名詞)+一般名詞)に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、同義語抽出装置10の共起ベクトル作成部135は、複合語の「名詞」の間に「の」、「に関する」を加えた文字列を作成する。
例えば、共起ベクトル作成部135は、「課金方式」について、「課金」と「方式」との間に、「の」を加えた「課金の方式」という文字列と、「に関する」を加えた「課金に関する方式」という文字列とを作成する。そして、共起ベクトル作成部135は、上記の文字列それぞれについて当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成し、「課金方式」の共起ベクトルに、上記の2つの文字列の共起ベクトルを重ね合わせた共起ベクトルを作成する。
また、図1の(3)に示す細分類パターン(一般名詞+一般名詞(+一般名詞))に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、共起ベクトル作成部135は、図1の(2)に示す細分類パターンに該当する複合語の場合と同様に、重ね合わせ共起ベクトルを作成する。
また、図1の(4)に示す細分類パターン(サ変名詞+サ変名詞(+サ変名詞))に該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部135は、前記した図1の(1)に示す細分類パターンに該当する複合語の場合と同様に重ね合わせ共起ベクトルを作成する。
このようにすることで、同義語抽出装置10は、複合語の同義語をより精度よく抽出することができる。
[プログラム]
また、上記の実施形態で述べた同義語抽出装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を同義語抽出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、同義語抽出装置10を、クラウドサーバに実装してもよい。
図5を用いて、上記のプログラム(同義語抽出プログラム)を実行するコンピュータの一例を説明する。図5に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図5に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、上記の同義語抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 同義語抽出装置
11 入出力部
12 記憶部
13 制御部
131 複合語抽出部
132 名詞判定部
133 第1の抽出部
134 第2の抽出部
135 共起ベクトル作成部
136 類似度算出部
137 同義語出力部

Claims (4)

  1. 文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、
    前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出部と、
    前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出部と、
    前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、
    前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、
    前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、
    を備えることを特徴とする同義語抽出装置。
  2. 前記共起ベクトル作成部は、さらに、
    前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語を構成する名詞の間に格助詞を加えた文字列について、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした当該複合語の第1の共起ベクトルを作成し、作成した当該複合語の第1の共起ベクトルを、当該複合語の共起ベクトルに加算することにより、当該複合語の第2の共起ベクトルを作成し、
    前記類似度算出部は、
    前記複合語の共起ベクトル同士の類似度として、当該複合語の第2の共起ベクトル同士の類似度を算出する
    ことを特徴とする請求項1に記載の同義語抽出装置。
  3. 同義語抽出装置が実行する同義語抽出方法であって、
    文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
    前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出ステップと、
    前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出ステップと、
    前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
    前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
    前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
    を含むことを特徴とする同義語抽出方法。
  4. 文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
    前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出ステップと、
    前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出ステップと、
    前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
    前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
    前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
    をコンピュータに実行させることを特徴とする同義語抽出プログラム。
JP2019029885A 2019-02-21 2019-02-21 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム Active JP7147625B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019029885A JP7147625B2 (ja) 2019-02-21 2019-02-21 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
US17/431,495 US11900055B2 (en) 2019-02-21 2020-02-04 Synonym extraction device, synonym extraction method, and synonym extraction program
PCT/JP2020/004114 WO2020170804A1 (ja) 2019-02-21 2020-02-04 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019029885A JP7147625B2 (ja) 2019-02-21 2019-02-21 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

Publications (2)

Publication Number Publication Date
JP2020135567A true JP2020135567A (ja) 2020-08-31
JP7147625B2 JP7147625B2 (ja) 2022-10-05

Family

ID=72143957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019029885A Active JP7147625B2 (ja) 2019-02-21 2019-02-21 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

Country Status (3)

Country Link
US (1) US11900055B2 (ja)
JP (1) JP7147625B2 (ja)
WO (1) WO2020170804A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022249362A1 (ja) * 2021-05-26 2022-12-01 株式会社KPMG Ignition Tokyo テキストを合成音声に変換する音声合成

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319885A (ja) * 1994-05-25 1995-12-08 Fuji Xerox Co Ltd キーワード抽出装置
JP2000259627A (ja) * 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
JP2010198142A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5754019U (ja) 1980-09-17 1982-03-29
JP5720071B2 (ja) * 2011-07-11 2015-05-20 日本電気株式会社 複合語概念分析システム、方法およびプログラム
JP5754018B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 多義語抽出システム、多義語抽出方法、およびプログラム
JP6737151B2 (ja) * 2016-11-28 2020-08-05 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319885A (ja) * 1994-05-25 1995-12-08 Fuji Xerox Co Ltd キーワード抽出装置
JP2000259627A (ja) * 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
JP2010198142A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
寺田 昭 外2名: "文脈情報による同義語辞書作成支援ツール", 情報処理学会研究報告, vol. 第2006巻 第124号, JPN6022034712, 23 November 2006 (2006-11-23), JP, pages 87 - 94, ISSN: 0004853622 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022249362A1 (ja) * 2021-05-26 2022-12-01 株式会社KPMG Ignition Tokyo テキストを合成音声に変換する音声合成

Also Published As

Publication number Publication date
JP7147625B2 (ja) 2022-10-05
US11900055B2 (en) 2024-02-13
US20220138417A1 (en) 2022-05-05
WO2020170804A1 (ja) 2020-08-27

Similar Documents

Publication Publication Date Title
US11681877B2 (en) Systems and method for vocabulary management in a natural learning framework
WO2020220539A1 (zh) 数据增量方法、装置、计算机设备及存储介质
US11520992B2 (en) Hybrid learning system for natural language understanding
US9002695B2 (en) Machine translation device, method of processing data, and program
KR20220027198A (ko) 자연어 이해(nlu) 프레임워크에서 검색 키들 및 검색 공간들의 확장을 위한 아티팩트들의 피닝
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
WO2012145782A1 (en) Generic system for linguistic analysis and transformation
US20220058191A1 (en) Conversion of natural language query
US9984064B2 (en) Reduction of memory usage in feature generation
WO2020170804A1 (ja) 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
CN109783820B (zh) 一种语义解析方法及系统
Tambouratzis et al. Machine Translation with Minimal Reliance on Parallel Resources
Azmat et al. Constructing Uyghur name entity recognition system using neural machine translation tag projection
JP6835755B2 (ja) 日本語名詞句抽出装置、日本語名詞句抽出方法および日本語名詞句抽出プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
Einieh et al. Fine Tuning an AraT5 Transformer for Arabic Abstractive Summarization
Anwar et al. Constructing Uyghur Named Entity Recognition System Using Neural Machine Translation Tag Projection
Mori et al. A comparative study of dictionaries and corpora as methods for language resource addition
CN116187280A (zh) 一种文本生成方法、装置、设备及存储介质
WO2023211370A2 (en) Semantic parsing for short text
WO2021084631A1 (ja) 情報処理装置、抽出方法および抽出プログラム
JP2023152343A (ja) 生成装置、生成方法、および生成プログラム
Mahlow et al. Noun phrase chunking and categorization for authoring aids
CN114896980A (zh) 军事实体链接方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R150 Certificate of patent or registration of utility model

Ref document number: 7147625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150