JP2021179832A - 変化検出プログラム、変化検出装置及び変化検出方法 - Google Patents

変化検出プログラム、変化検出装置及び変化検出方法 Download PDF

Info

Publication number
JP2021179832A
JP2021179832A JP2020085172A JP2020085172A JP2021179832A JP 2021179832 A JP2021179832 A JP 2021179832A JP 2020085172 A JP2020085172 A JP 2020085172A JP 2020085172 A JP2020085172 A JP 2020085172A JP 2021179832 A JP2021179832 A JP 2021179832A
Authority
JP
Japan
Prior art keywords
sentences
vectors
change detection
document
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020085172A
Other languages
English (en)
Inventor
謙介 馬場
Kensuke Baba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020085172A priority Critical patent/JP2021179832A/ja
Priority to US17/209,249 priority patent/US20210357589A1/en
Publication of JP2021179832A publication Critical patent/JP2021179832A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文単位での話題の特定を可能とする変化検出プログラム、変化検出装置及び変化検出方法を提供する。【解決手段】文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトルを算出し、複数のベクトルと、複数の文の文書における記載順序に応じて複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、周波数解析の結果に基づいて特定される変化点に対応する文書における位置を示す情報を出力する。【選択図】図16

Description

本発明は、変化検出技術に関する。
近年、例えば、会議の議事録等の文書データ(以下、対象文書データとも呼ぶ)に含まれる話題を特定するために、同一の話題に関連する文の検出を行う情報処理システムの構築が行われている。
具体的に、このような情報処理システムでは、例えば、他の文書データ(以下、訓練用文書データとも呼ぶ)における各単語の出現頻度についての統計情報を用いることにより、対象文書データに含まれる各文の内容についての類似度を算出する。そして、情報処理システムは、算出した類似度を用いることにより、内容が近いと判断できる複数の文が同一のクラスタに振り分けられるように、対象文書データに含まれる各文を複数のクラスタに振り分ける。さらに、情報処理システムは、例えば、同一のクラスタに振り分けられた1以上の文が同一の話題に関連する文であるとの判定結果を出力する(例えば、特許文献1乃至3参照)。
特開2015−225134号公報 特開2007−241902号公報 特開2004−185135号公報
ここで、上記のような情報処理システムでは、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後の文との関係(以下、単に前後関係とも呼ぶ)を考慮することによって判断を行う。
しかしながら、前後関係を考慮する必要がある文の範囲は、対象文書データに含まれるノイズ(各クラスタに対応する各話題と関係がない文)の有無等によって異なる。そのため、情報処理システムでは、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後関係を考慮する文の範囲を変えながら判断を行う必要がある。そのため、情報処理システムは、対象文書データにおける同一の話題に関連する文の検出に長時間を要する場合がある。
そこで、一つの側面では、本発明は、文単位での話題の特定を可能とする変化検出プログラム、変化検出装置及び変化検出方法を提供することを目的とする。
実施の形態の一態様では、文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、処理をコンピュータに実行させる。
一つの側面によれば、文単位での話題の特定を可能とする。
図1は、情報処理システム10の構成について説明する図である。 図2は、変化検出装置1における処理の具体例を説明する図である。 図3は、変化検出装置1における処理の具体例を説明する図である。 図4は、変化検出装置1における処理の具体例を説明する図である。 図5は、変化検出装置1のハードウエア構成を説明する図である。 図6は、変化検出装置1の機能のブロック図である。 図7は、第1の実施の形態における変化検出処理の概略を説明するフローチャート図である。 図8は、第1の実施の形態における変化検出処理の詳細を説明するフローチャート図である。 図9は、第1の実施の形態における変化検出処理の詳細を説明するフローチャート図である。 図10は、第1の実施の形態における変化検出処理の詳細を説明するフローチャート図である。 図11は、第1の実施の形態における変化検出処理の詳細を説明するフローチャート図である。 図12は、文書データ132の具体例について説明する図である。 図13は、統計情報131aの具体例について説明する図である。 図14は、第1の実施の形態における変化検出処理の詳細を説明する図である。 図15は、第1の実施の形態における変化検出処理の詳細を説明する図である。 図16は、第1の実施の形態における変化検出処理の詳細を説明する図である。 図17は、第1の実施の形態における変化検出処理の詳細を説明する図である。 図18は、第1の実施の形態における変化検出処理の詳細を説明する図である。
[情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。図1は、情報処理システム10の構成について説明する図である。図1に示す情報処理システム10は、変化検出装置1(以下、情報処理装置1とも呼ぶ)と、操作端末3とを有する。
操作端末3は、例えば、作業者が必要な情報等の入力を行う端末であり、PC(Personal Computer)であってよい。また、操作端末3は、ネットワークNWを介して変化検出装置1と通信が可能な端末である。
変化検出装置1は、例えば、1台以上の物理マシンまたは仮想マシンからなり、対象文書データにおける話題の変化点を検出する処理(以下、変化検出処理とも呼ぶ)を行う。
具体的に、変化検出装置1は、例えば、訓練用文書データにおける各単語の出現頻度についての統計情報を用いることにより、対象文書データに含まれる各文に対応するベクトル値を算出する。そして、変化検出装置1は、算出したベクトル値についての類似度を用いることにより、内容が近いと判断できる複数の文が同一のクラスタに振り分けられるように、対象文書データに含まれる各文を複数のクラスタに振り分ける。その後、変化検出装置1は、例えば、同一のクラスタに振り分けられた1以上の文が同一の話題に関連する文であるとする判定結果を操作端末3に出力する。以下、変化検出装置1における処理の具体例について説明を行う。
[変化検出装置における処理の具体例]
図2から図4は、変化検出装置1における処理の具体例を説明する図である。図2は、対象文書データに含まれる各文のベクトル値を示す具体例である。また、図3は、対象文書データにおける記載順序に応じて表現した各文のベクトル値の時系列データを示す具体例である。さらに、図4は、対象文書データに含まれる各文のベクトル値の移動平均を行った場合における具体例である。なお、以下、各文のベクトル値が2次元のベクトル値であるものとして説明を行う。
具体的に、変化検出装置1は、図2に示すように、対象文書データに含まれる文ごとに、各文に対応する2次元のベクトル値のそれぞれを横軸(X軸)の値及び縦軸(Y軸)の値に対応させた点を2次元平面にプロットする。図2に示す例において、丸に対応する点P1は、例えば、対象文書データの序盤に記載された文に対応するベクトル値の点である。また、図2に示す例において、三角に対応する点P2は、例えば、対象文書データの中盤に記載された文に対応するベクトル値の点である。さらに、図2に示す例において、四角に対応する点P3は、例えば、対象文書データの終盤に記載された文に対応するベクトル値の点である。
そして、変化検出装置1は、図2に示すグラフにおけるベクトル間の距離に基づき、対象文書データに含まれる各文に対応する複数のベクトル値のそれぞれを複数のクラスタに振り分ける。
具体的に、変化検出装置1は、例えば、図2に示す平面において距離が近いベクトルが同じクラスタに振り分けられるように、対象文書データに含まれる各文に対応する複数のベクトル値のそれぞれを複数のクラスタに振り分ける。
ここで、上記のように、対象文書データに含まれる各文のクラスタ分けを各文のベクトル値を用いて行う場合、変化検出装置1は、各文のクラスタ分けを精度良く行うことができない場合がある。
そこで、変化検出装置1は、例えば、図3(A)に示すように、各文に対応する2次元のベクトル値のうち、1つ目のベクトル値(図2におけるX軸の値に対応するベクトル値)についての時系列データを生成する。また、変化検出装置1は、例えば、図3(B)に示すように、各文に対応する2次元のベクトル値のうち、2つ目のベクトル値(図2におけるY軸の値に対応するベクトル値)についての時系列データを生成する。
そして、変化検出装置1は、図3で生成した各時系列データにおける値の変化の状態に基づき、対象文書データに含まれる各文についてのクラスタ分けを行う。
ここで、上記のようなクラスタ分けを行うためには、大域的な変化が表れている時系列データを用いることが好ましい。そのため、変化検出装置1は、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、例えば、前後の文との関係を考慮して判断を行う。
この点、前後関係を考慮する必要がある文の範囲は、対象文書データに含まれるノイズの有無等によって異なる。具体的に、前後関係を考慮する必要がある文の範囲は、例えば、対象文書データの書き方や対象文書データの記載内容が話された際の話し方等の個人的な特徴に起因するノイズの有無等によって異なる。また、前後関係を考慮する必要がある文の範囲は、例えば、対象文書データと訓練用文書データとのドメイン(内容)の違いによるノイズの有無等によって異なる。
そのため、変化検出装置1は、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後関係を考慮する文の範囲を変えながら判断を行う必要がある。
具体的に、変化検出装置1は、この場合、図4に示すように、移動平均を行う文の数(前後関係を考慮する文の範囲)を変えながら、図2で説明した平面及び図3で説明した時系列データを複数回生成する。そして、変化検出装置1は、複数回生成した時系列データのうち、大域的な変化が表れていると判断できる時系列データを用いることにより、対象文書データに含まれる各文のクラスタ分けを行う。
さらに具体的に、変化検出装置1は、例えば、図4(A)から図4(C)に示すように、移動平均を行う文の数を2とした場合における平面及び時系列データを生成する。また、変化検出装置1は、例えば、図4(D)から図4(F)に示すように、移動平均を行う文の数を4とした場合における平面及び時系列データを生成する。さらに、変化検出装置1は、例えば、図4(G)から図4(I)に示すように、移動平均を行う文の数を6とした場合における平面及び時系列データを生成する。
そして、図4に示す例において、各文に対応する2次元のベクトル値のうち、1つ目のベクトル値(X軸の値に対応するベクトル値)についての時系列データ(図4(B)、(E)及び(H))では、移動平均を行う文の数が増えるほどX軸の値が増加している。また、図4に示す例において、各文に対応する2次元のベクトル値のうち、2つ目のベクトル値(Y軸の値に対応するベクトル値)についての時系列データ(図4(C)、(F)及び(I))では、移動平均を行う文の数が増えるほどY軸の値が減少している。すなわち、図4に示す例は、移動平均を行う文の数が増えるほど、大域的な変化がより表れる時系列データの取得が可能になることを示している。
そのため、変化検出装置1は、この場合、例えば、移動平均を行う文の数を6とした場合における時系列データ(図4(H)及び(I))を用いることによって、対象文書データに含まれる各文のクラスタ分けを行う。
しかしながら、上記のように、前後関係を考慮する文の範囲を変えながら行うクラスタ分けは、対象文書データに含まれるノイズの有無等によって長時間を要する場合がある。そのため、変化検出装置1は、対象文書データにおける同一の話題に関連する文の検出に長時間を要する場合がある。
そこで、本実施の形態における変化検出装置1は、対象文書データに含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値(以下、単にベクトルとも呼ぶ)を算出する。そして、変化検出装置1は、複数のベクトル値と、複数の文の対象文書データにおける記載順序に応じて複数のベクトル値に対応付けられた時間軸とに基づいて、周波数解析を実行する。その後、変化検出装置1は、周波数解析の結果に基づいて特定される変化点に対応する対象文書データにおける位置を示す情報を出力する。
すなわち、変化検出装置1は、例えば、対象文書データに含まれる複数の文のそれぞれに対応する複数のベクトル値(以下、抽出前ベクトル値とも呼ぶ)についての周波数分析を行うことにより、抽出前ベクトル値についての大域的な変化を検出する。そして、変化検出装置1は、検出した大域的な変化に基づいて、対象文書データにおける同一の話題に関連する部分の検出を行う。
具体的に、変化検出装置1は、例えば、抽出前ベクトル値を対象文書データにおける記載順序に応じた時系列データとして表現し、その時系列データにおける低周波成分の抽出を行う。ここでの低周波成分は、所定の閾値以下の周波数に対応する周波数成分であり、例えば、時系列データに対応する周波数成分のうち、低い方から10(%)程度の部分に対応する周波数成分である。そして、変化検出装置1は、抽出した低周波成分に対応する複数のベクトル値(以下、抽出後ベクトル値とも呼ぶ)を、抽出前ベクトル値についての大域的な変化を示すベクトル値として特定する。
その後、変化検出装置1は、特定した抽出後ベクトル値のそれぞれを各ベクトル値の類似関係に基づいて複数のクラスタに振り分ける。さらに、変化検出装置1は、例えば、対象文書データにおいて記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタに含まれるベクトル値に対応する文の組合せを特定し、特定した文の組合せに含まれる文の間の位置を話題の変化点として検出する。
これにより、変化検出装置1は、対象文書データに含まれる前後の文との関係を考慮することなく、対象文書データにおける同一の話題に関連する1以上の文を特定することが可能になる。そのため、変化検出装置1は、対象文書データにおける同一の話題に関連する1以上の文の特定を高速に行うことが可能になる。
なお、上記の低周波成分に対応する周波数は、対象文書データに含まれる各文が秒単位の時間に置き換えられる場合、例えば、0(Hz)〜0.1(Hz)程度である。
[情報処理システムのハードウエア構成]
次に、情報処理システム10のハードウエア構成について説明する。図5は、変化検出装置1のハードウエア構成を説明する図である。
変化検出装置1は、図5に示すように、プロセッサであるCPU101と、メモリ102と、通信装置103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
記憶媒体104は、例えば、変化検出処理を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、変化検出処理を行う際に用いられる情報を記憶する情報格納領域130を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行して変化検出処理を行う。
また、通信装置103は、例えば、ネットワークNWを介して操作端末3との通信を行う。
[情報処理システムの機能]
次に、情報処理システム10の機能について説明を行う。図6は、変化検出装置1の機能のブロック図である。
変化検出装置1は、図6に示すように、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、情報受信部111と、情報管理部112と、ベクトル算出部113と、解析実行部114とを含む各種機能を実現する。また、変化検出装置1は、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、クラスタ生成部115と、変化点特定部116と、情報出力部117とを含む各種機能を実現する。
また、変化検出装置1は、例えば、図6に示すように、機械学習モデル131と、対象文書データ132(以下、単に文書データ132とも呼ぶ)と、ベクトル値133とを情報格納領域130に記憶する。
情報受信部111は、例えば、作業者が操作端末3を介して入力した機械学習モデル131を受信する。機械学習モデル131は、訓練用文書データ(図示しない)における各単語の出現頻度についての統計情報131aを用いることによって計算された関数である。また、情報受信部111は、例えば、作業者が操作端末3を介して入力した文書データ132を受信する。
情報管理部112は、例えば、情報受信部111が受信した機械学習モデル131を情報格納領域130に記憶する。また、情報管理部112は、例えば、情報受信部111が受信した文書データ132を情報格納領域130に記憶する。
ベクトル算出部113は、情報受信部111が受信した文書データ132に含まれる複数の文のそれぞれに含まれる単語に基づいて、その複数の文のそれぞれに対応する複数のベクトル値133を算出する。
具体的に、ベクトル算出部113は、情報格納領域130に記憶した機械学習モデル131に対して、情報格納領域130に記憶した文書データ132を入力することにより、文書データ132に含まれる複数の文に対応するベクトル値を算出する。
解析実行部114は、ベクトル算出部113が算出した複数のベクトル値133と、文書データ132に含まれる複数の文の文書データ132における記載順序に応じて複数のベクトル値133に対応付けられた時間軸とに基づいて、周波数解析を実行する。
具体的に、解析実行部114は、例えば、時間軸に対応付けられた複数のベクトル値133の時間軸データ(以下、第1波形データとも呼ぶ)に対してフーリエ変換を行うことによって、複数のベクトル値133に対応する周波数成分を取得する。そして、解析実行部114は、例えば、取得した周波数成分のうちの特定の周波数成分を抽出する。その後、解析実行部114は、例えば、抽出した特定の周波数成分に対して逆フーリエ変換を行うことによって、時間軸に対応付けられた複数のベクトル値133の時系列データ(以下、第2波形データとも呼ぶ)を取得する。
クラスタ生成部115は、例えば、第2波形データに対応する複数のベクトル値133の相互の類似度を用いることにより、第2波形データに対応する複数のベクトル値133を複数のクラスタCLに振り分ける。
変化点特定部116は、例えば、クラスタ生成部115が振り分けた複数のクラスタCLごとに、各クラスタCLに振り分けられた複数のベクトル値133に対応する複数の文の文書データ132における記載位置を特定する。そして、変化点特定部116は、例えば、文書データ132における記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタCLに含まれるベクトル値133に対応する文の組合せを特定する。その後、変化点特定部116は、例えば、特定した組合せに含まれる文の間の位置を、変化点(話題の変化点)に対応する位置として特定する。
情報出力部117は、例えば、変化点特定部116が特定した位置を示す情報を、変化点に対応する位置を示す情報として操作端末3に出力する。
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図7は、第1の実施の形態における変化検出処理の概略を説明するフローチャート図である。
変化検出装置1は、図7に示すように、変化検出タイミングになるまで待機する(S11のNO)。変化検出タイミングは、例えば、作業者が操作端末3を介して入力した文書データ132を受信したタイミングであってよい。また、変化検出タイミングは、例えば、作業者によって予め設定されたタイミングであってよい。
そして、変化検出タイミングになった場合(S11のYES)、変化検出装置1は、文書データ132に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値133を算出する(S12)。
続いて、変化検出装置1は、S12の処理で算出した複数のベクトル値133と、複数の文の文書データ132における記載順序に応じて複数のベクトル値133に対応付けられた時間軸とに基づいて、周波数解析を実行する(S13)。
その後、変化検出装置1は、S13の処理で実行した周波数解析の結果に基づいて特定される変化点に対応する文書データ132における位置を示す情報を出力する(S14)。
すなわち、変化検出装置1は、例えば、文書データ132に含まれる複数の文のそれぞれに対応する複数のベクトル値133についての周波数分析を行うことにより、複数のベクトル値133についての大まかな変化を検出する。そして、変化検出装置1は、検出した大まかな変化に基づいて、文書データ132において同一の話題に関連する部分の検出を行う。
これにより、変化検出装置1は、文書データ132に含まれる前後の文との関係を考慮することなく、文書データ132において同一の話題に関連する1以上の文を特定することが可能になる。そのため、変化検出装置1は、文書データ132において同一の話題に関連する1以上の文の特定を高速に行うことが可能になる。
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図8から図11は、第1の実施の形態における変化検出処理の詳細を説明するフローチャート図である。また、図12から図18は、第1の実施の形態における変化検出処理の詳細を説明する図である。
[情報管理処理]
初めに、変化検出処理のうち、機械学習モデル131の管理を行う処理(以下、情報管理処理とも呼ぶ)について説明を行う。図8は、情報管理処理を説明するフローチャート図である。
変化検出装置1の情報受信部111は、図8に示すように、例えば、作業者が操作端末3を介して入力した機械学習モデル131を受信するまで待機する(S21のNO)。
そして、作業者が操作端末3を介して入力した機械学習モデル131を受信した場合(S21のYES)、変化検出装置1の情報管理部112は、受信した機械学習モデル131を情報格納領域130に記憶する(S22)。
なお、情報管理部112は、例えば、訓練用文書データ(図示しない)に基づいた機械学習によって機械学習モデル131の生成を自装置(変化検出装置1)において行うものであってもよい。この場合、情報管理部112は、例えば、文書データ132と内容が類似する訓練用文書データに基づいた機械学習によって、機械学習モデル131の生成を行うものであってよい。
[変化検出処理のメイン処理]
次に、変化検出処理のメイン処理について説明を行う。図9から図11は、変化検出処理のメイン処理を説明するフローチャート図である。
情報受信部111は、図9に示すように、例えば、作業者が操作端末3を介して入力した文書データ132を受信するまで待機する(S31のNO)。以下、文書データ132の具体例について説明を行う。
[文書データの具体例]
図12は、文書データ132の具体例について説明する図である。なお、以下、文書データ132に含まれる文の数がk(kは2以上の整数)個であるものとして説明を行う。
図12に示す文書データ132は、例えば、「野球のオリンピック代表選手が発表されたんだけど.」という文132aと、「今回は良い結果を残すと思う.」という文132bと、「ホームランを打てる選手が必要だね.」という文132cとを含む。
また、図12に示す文書データ132は、例えば、「オリンピックといえばサッカーの代表にも期待してる.」という文132dと、「この間の壮行試合でも良い結果を残した.」という文132eとを含む。
さらに、図12に示す文書データ132は、例えば、「再来年のワールドカップでもいいところまでいくんじゃないかな.」という文132fを含む。
図9に戻り、作業者が操作端末3を介して入力した文書データ132を受信した場合(S31のYES)、変化検出装置1のベクトル算出部113は、情報格納領域130に記憶した機械学習モデル131に対して、S31の処理で受信した文書データ132に含まれるk個の文のそれぞれを入力する。そして、ベクトル算出部113は、機械学習モデル131から出力された値を、S31の処理で受信した文書データ132に含まれる複数の文のそれぞれに対応するk個のベクトル列133a(複数のベクトル値133からなる列)として取得する(S32)。
具体的に、機械学習モデル131は、文書データ132に含まれるk個の文のそれぞれの入力を受け付けた場合、例えば、k個の文のそれぞれに含まれる名詞を抽出する。そして、機械学習モデル131は、例えば、k個の文のそれぞれから抽出した名詞と、訓練用文書データ(図示しない)に基づいた機械学習に伴って予め生成された統計情報131aとを用いることによって、k個の文のそれぞれに対応するベクトル列133aを算出する。その後、機械学習モデル131は、例えば、算出したk個のベクトル列133aを出力する。以下、統計情報131aの具体例及びS32の処理の具体例について説明を行う。
[統計情報の具体例]
初めに、統計情報131aの具体例について説明を行う。図13は、統計情報131aの具体例について説明する図である。
図13に示す統計情報131aは、各単語が設定される「単語」と、各単語に対応する1つ目のベクトル値133の算出に用いられる第1重み値が設定される「第1重み値」とを項目として有する。また、図13に示す統計情報131aは、各単語に対応する2つ目のベクトル値133の算出に用いられる第2重み値が設定される「第2重み値」を項目として有する。第1重み値は、例えば、「サッカー」及び「野球」のそれぞれと各単語との類似度を示す値である。また、第2重み値は、例えば、「オリンピック」及び「ワールドカップ」のそれぞれと各単語との類似度を示す値である。
具体的に、図13に示す統計情報131aにおいて、1行目の情報には、「単語」に「サッカー」が設定され、「第1重み値」に「1」が設定され、「第2重み値」に「0」が設定されている。
また、図13に示す統計情報131aにおいて、2行目の情報には、「単語」に「野球」が設定され、「第1重み値」に「−1」が設定され、「第2重み値」に「0」が設定されている。図13に含まれる他の情報についての説明は省略する。
[S32の処理の具体例]
次に、S32の処理の具体例について説明を行う。
例えば、図12で説明した文書データ132の入力を受け付けた場合、機械学習モデル131は、例えば、文132aに含まれる名詞である「野球」、「オリンピック」、「代表」、「選手」及び「発表」を抽出する。
そして、機械学習モデル131は、例えば、抽出した単語である「野球」、「オリンピック」、「代表」、「選手」及び「発表」のそれぞれに対応する第1重み値の平均値を、文132aに対応する1つ目のベクトル値133として算出する。また、機械学習モデル131は、例えば、抽出した単語である「野球」、「オリンピック」、「代表」、「選手」及び「発表」のそれぞれに対応する第2重み値の平均値を、文132aに対応する2つ目のベクトル値133として算出する。
具体的に、図13で説明した統計情報131aにおいて、「単語」に「サッカー」、「野球」、「オリンピック」、「発表」及び「選手」のそれぞれが設定された情報には、「第1重み値」として、「1」、「−1」、「0」、「0.2」及び「0.3」のそれぞれが設定されている。また、図13で説明した統計情報131aにおいて、「単語」に「サッカー」、「野球」、「オリンピック」、「発表」及び「選手」のそれぞれが設定された情報には、「第2重み値」として、「0」、「0」、「1」、「0」及び「0」のそれぞれが設定されている。
そのため、機械学習モデル131は、例えば、図14の1行目に示すように、文132aから抽出した各単語の第1重み値の平均値である「0.1」を、文132aに対応する1つ目のベクトル値133として算出する。また、機械学習モデル131は、文132aから抽出した各単語の第2重み値の平均値である「0.2」を、文132aに対応する2つ目のベクトル値133として算出する。
さらに、機械学習モデル131は、例えば、文132b、132c、132d、132e及び132fを含む他の文のそれぞれに対応するベクトル値133についても算出を行う。
具体的に、機械学習モデル131は、例えば、図14の2行目に示すように、文132bから抽出した各単語の第1重み値の平均値である「0」を、文132bに対応する1つ目のベクトル値133として算出する。また、機械学習モデル131は、例えば、図14の2行目に示すように、文132bから抽出した各単語の第2重み値の平均値である「0」を、文132bに対応する2つ目のベクトル値133として算出する。図14についての他の情報についての説明は省略する。
その後、機械学習モデル131は、文132a等を含むk個の文に対応するk個のベクトル列133aを出力する。
図9に戻り、変化検出装置1の解析実行部114は、カウンタとして用いる変数であるiに1を設定する(S33)。
そして、解析実行部114は、S32の処理で取得したk個のベクトル列133aのそれぞれにおけるi番目の要素を抽出する(S34)。
具体的に、解析実行部114は、例えば、図14で説明したk個のベクトル列133aのそれぞれに含まれる1つ目のベクトル値133(k個のベクトル値133)を抽出する。
続いて、解析実行部114は、S34の処理で抽出したk個の要素からなるベクトル列133bを生成する(S35)。
その後、解析実行部114は、S31の処理で受信した文書データ132におけるk個の文の記載順序に応じて、S35の処理で生成したベクトル列133aに対応する第1波形データWD1を生成する(S36)。
すなわち、解析実行部114は、文書データ132における各文の記載順序を時系列とした場合におけるベクトル値133の時系列データを生成する。
具体的に、解析実行部114は、例えば、図15に示すように、S35の処理で生成したベクトル列133aを構成する1つ目のベクトル値133に対応する第1波形データWD1(図15(A))と、2つ目のベクトル値133に対応する第1波形データWD1(図15(B))とをそれぞれ生成する。
そして、解析実行部114は、図10に示すように、S36の処理で生成した第1波形データWD1に対してフーリエ変換(高速フーリエ変換)を行うことによって、S35の処理で生成したベクトル列133aに対応する周波数成分FCを取得する(S41)。
具体的に、図16に示すように、図15(A)で説明した第1波形データWD1から取得した周波数成分FCを示すグラフ(図16(A))と、図15(B)で説明した第1波形データWD1から取得した周波数成分FCを示すグラフ(図16(B))とをそれぞれ生成する。
続いて、解析実行部114は、S41の処理で取得した周波数成分FCのうちの特定の周波数成分FCを抽出する(S42)。
具体的に、解析実行部114は、例えば、図16に示すように、各周波数成分FCのうちの低周波成分FCaの抽出を行う。
さらに、解析実行部114は、S42の処理で抽出した周波数成分FCに対して逆フーリエ変換を行うことによって、S35の処理で生成したベクトル列133aに対応する第2波形データWD2を生成する(S43)。
具体的に、解析実行部114は、図17に示すように、図15(A)に示す第1波形データWD1よりも大まかな変化を表現する第2波形データWD2(図17(A))と、図15(B)に示す第1波形データWD1よりも大まかな変化を表現する第2波形データWD2(図17(B))との生成を行う。
すなわち、S36の処理で生成した第1波形データWD1には、話題を特定することができない文(特定対象の話題に関連しない文)や、文書データ132の著者の書き方の癖等による大域的なノイズが含まれている可能性がある。
また、例えば、S31の処理で受信した文書データ132が会議の議事録等の文書データである場合、同一の話題に対応する各文は、文書データ132において纏まって位置しているものと判断できる。
そのため、解析実行部114は、例えば、第1波形データWD1に対応する低周波成分のみを抽出し、抽出した低周波成分に対応する第2波形データWD2を生成することにより、大域的なノイズが排除された波形データであって、かつ、話題についての大まかな変化が表現された波形データを取得することが可能になる。
これにより、変化検出装置1は、文書データ132に含まれる他の文との前後関係を考慮することなく、文書データ132において同一の話題に関連する1以上の文を特定することが可能になる。そのため、変化検出装置1は、文書データ132において同一の話題に関連する1以上の文の特定を高速に行うことが可能になる。
その後、解析実行部114は、S32の処理で取得したベクトル列133aのそれぞれに含まれるベクトル値133の数であるnにiに到達したか否かを判定する(S44)。
その結果、iがnに到達していないと判定した場合(S44のNO)、解析実行部114は、iに1を加算した後(S45)、S34以降の処理を再度行う。
一方、iがnに到達したと判定した場合(S44のYES)、変化検出装置1のクラスタ生成部115は、図11に示すように、S43の処理で生成した第2波形データWD2に対応する複数のベクトル値133のそれぞれの類似度を用いることにより、S43の処理で生成した第2波形データWD2に対応する複数のベクトル値133を複数のクラスタCLに振り分ける(S51)。
具体的に、クラスタ生成部115は、例えば、図18に示すように、第2波形データWD2に対応する複数のベクトル値133のそれぞれを横軸(X軸)の値及び縦軸(Y軸)の値に対応させた点を2次元平面にプロットする。そして、クラスタ生成部115は、例えば、2次元平面において距離が近いベクトルが同じクラスタCLに振り分けられるように、第2波形データWD2に対応する複数のベクトル値133のそれぞれを複数のクラスタCLに振り分ける。
そして、変化検出装置1の変化点特定部116は、S51の処理で振り分けた複数のクラスタCLごとに、各クラスタCLに含まれる複数のベクトル値133に対応する複数の文の文書データ132における記載位置を特定する(S52)。
続いて、変化点特定部116は、S52の処理で特定した記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタCLに含まれるベクトル値133に対応する文の組合せを特定する(S53)。
その後、変化検出装置1の情報出力部117は、S53の処理で特定した組合せに含まれる文の間の位置を示す情報を、文書データ132における話題の変化点に対応する位置を示す情報として出力する(S54)。
なお、解析実行部114は、S42の処理において、例えば、各周波数成分FCのうちの高周波成分の抽出を行うものであってもよい。この場合、解析実行部114は、文書データ132において話題が大きく変化する変化点を検出することが可能になる。
このように、本実施の形態における変化検出装置1は、文書データ132に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値133を算出する。そして、変化検出装置1は、複数のベクトル値133と、複数の文の文書データ132における記載順序に応じて複数のベクトル値133に対応付けられた時間軸とに基づいて、周波数解析を実行する。その後、変化検出装置1は、周波数解析の結果に基づいて特定される変化点に対応する文書データ132における位置を示す情報を出力する。
すなわち、変化検出装置1は、例えば、文書データ132に含まれる複数の文のそれぞれに対応する複数のベクトル値(抽出前ベクトル値)についての周波数分析を行うことにより、抽出前ベクトル値についての大域的な変化を検出する。そして、変化検出装置1は、検出した大域的な変化に基づいて、文書データ132における同一の話題に関連する部分の検出を行う。
具体的に、変化検出装置1は、例えば、抽出前ベクトル値を文書データ132における記載順序に応じた時系列データとして表現し、その時系列データにおける低周波成分の抽出を行う。そして、変化検出装置1は、抽出した低周波成分に対応する複数のベクトル値(抽出後ベクトル値)を、抽出前ベクトル値についての大域的な変化を示すベクトル値として特定する。
その後、変化検出装置1は、特定した抽出後ベクトル値のそれぞれを各ベクトル値の類似関係に基づいて複数のクラスタに振り分ける。さらに、変化検出装置1は、例えば、文書データ132において記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタに含まれるベクトル値に対応する文の組合せを特定し、特定した文の組合せに含まれる文の間の位置を話題の変化点として検出する。
これにより、変化検出装置1は、文書データ132に含まれる前後の文との関係を考慮することなく、文書データ132における同一の話題に関連する1以上の文を特定することが可能になる。そのため、変化検出装置1は、文書データ132における同一の話題に関連する1以上の文の特定を高速に行うことが可能になる。具体的に、変化検出装置1は、例えば、文書データ132における同一の話題に関連する1以上の文の特定を、文書データ132に含まれる文の数の準線形時間において行うことが可能になる。
以上の実施の形態をまとめると、以下の付記のとおりである。
(付記1)
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出プログラム。
(付記2)
前記算出する処理は、他の文書に含まれる複数の文のそれぞれにおける単語の出現状況に基づいた機械学習によって得られた機械学習モデルに、前記文書に含まれる複数の文のそれぞれを入力することにより、前記文書に含まれる複数の文のそれぞれに対応する複数のベクトルを算出する処理を含む、
ことを特徴とする付記1に記載の変化検出プログラム。
(付記3)
前記実行する処理は、
前記時間軸に対応付けられた前記複数のベクトルの第1波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第2波形データを取得する、
処理を含み、
前記出力する処理は、取得した前記第2波形データに基づいて前記変化点を特定する処理を含む、
ことを特徴とする付記1に記載の変化検出プログラム。
(付記4)
前記特定の周波数成分は、前記周波数成分を取得する処理において取得された周波数成分のうち、閾値以下の周波数に対応する周波数成分である、
ことを特徴とする付記3に記載の変化検出プログラム。
(付記5)
前記出力する処理は、
前記他の複数のベクトルを複数のクラスタに分類し、
前記複数のクラスタのそれぞれに含まれるベクトルに対応する文の前記文書における記載位置を特定し、
記載位置が隣接する文の組のうち、対応するベクトルがそれぞれ異なるクラスタに含まれる特定の文の組を選択し、
選択された前記特定の文の組に対応する位置を、前記変化点と決定する、
処理を含む、
ことを特徴とする付記3に記載の変化検出プログラム。
(付記6)
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出するベクトル算出部と、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行する解析実行部と、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する情報出力部と、を有する、
ことを特徴とする変化検出装置。
(付記7)
付記6において、
前記解析実行部は、
前記時間軸に対応付けられた前記複数のベクトルの第1波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第2波形データを取得し、
前記情報出力部は、
取得した前記第2波形データに基づいて前記変化点を特定する、
ことを特徴とする変化検出装置。
(付記8)
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出方法。
(付記9)
付記8において、
前記実行する処理は、
前記時間軸に対応付けられた前記複数のベクトルの第1波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第2波形データを取得する、
処理を含み、
前記出力する処理は、取得した前記第2波形データに基づいて前記変化点を特定する処理を含む、
ことを特徴とする変化検出方法。
1:変化検出装置 3:操作端末
10:情報処理システム NW:ネットワーク

Claims (7)

  1. 文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
    前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
    前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
    処理をコンピュータに実行させることを特徴とする変化検出プログラム。
  2. 前記算出する処理は、他の文書に含まれる複数の文のそれぞれにおける単語の出現状況に基づいた機械学習によって得られた機械学習モデルに、前記文書に含まれる複数の文のそれぞれを入力することにより、前記文書に含まれる複数の文のそれぞれに対応する複数のベクトルを算出する処理を含む、
    ことを特徴とする請求項1に記載の変化検出プログラム。
  3. 前記実行する処理は、
    前記時間軸に対応付けられた前記複数のベクトルの第1波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
    取得した前記周波数成分のうちの特定の周波数成分を抽出し、
    抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第2波形データを取得する、
    処理を含み、
    前記出力する処理は、取得した前記第2波形データに基づいて前記変化点を特定する処理を含む、
    ことを特徴とする請求項1に記載の変化検出プログラム。
  4. 前記特定の周波数成分は、前記周波数成分を取得する処理において取得された周波数成分のうち、閾値以下の周波数に対応する周波数成分である、
    ことを特徴とする請求項3に記載の変化検出プログラム。
  5. 前記出力する処理は、
    前記他の複数のベクトルを複数のクラスタに分類し、
    前記複数のクラスタのそれぞれに含まれるベクトルに対応する文の前記文書における記載位置を特定し、
    記載位置が隣接する文の組のうち、対応するベクトルがそれぞれ異なるクラスタに含まれる特定の文の組を選択し、
    選択された前記特定の文の組に対応する位置を、前記変化点と決定する、
    処理を含む、
    ことを特徴とする請求項3に記載の変化検出プログラム。
  6. 文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出するベクトル算出部と、
    前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行する解析実行部と、
    前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する情報出力部と、を有する、
    ことを特徴とする変化検出装置。
  7. 文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
    前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
    前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
    処理をコンピュータに実行させることを特徴とする変化検出方法。
JP2020085172A 2020-05-14 2020-05-14 変化検出プログラム、変化検出装置及び変化検出方法 Pending JP2021179832A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020085172A JP2021179832A (ja) 2020-05-14 2020-05-14 変化検出プログラム、変化検出装置及び変化検出方法
US17/209,249 US20210357589A1 (en) 2020-05-14 2021-03-23 Method of detecting change and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020085172A JP2021179832A (ja) 2020-05-14 2020-05-14 変化検出プログラム、変化検出装置及び変化検出方法

Publications (1)

Publication Number Publication Date
JP2021179832A true JP2021179832A (ja) 2021-11-18

Family

ID=78511534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085172A Pending JP2021179832A (ja) 2020-05-14 2020-05-14 変化検出プログラム、変化検出装置及び変化検出方法

Country Status (2)

Country Link
US (1) US20210357589A1 (ja)
JP (1) JP2021179832A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238665A (zh) * 2021-11-22 2022-03-25 中冶赛迪重庆信息技术有限公司 一种多主题对标分析方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4333318B2 (ja) * 2003-10-17 2009-09-16 日本電信電話株式会社 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US9002892B2 (en) * 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US10489507B2 (en) * 2018-01-02 2019-11-26 Facebook, Inc. Text correction for dyslexic users on an online social network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238665A (zh) * 2021-11-22 2022-03-25 中冶赛迪重庆信息技术有限公司 一种多主题对标分析方法及系统

Also Published As

Publication number Publication date
US20210357589A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US11783034B2 (en) Apparatus and method for detecting malicious script
US10002296B2 (en) Video classification method and apparatus
CN107229627B (zh) 一种文本处理方法、装置及计算设备
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
JP2020525856A (ja) 音声検索・認識方法及び装置
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
CN111832396A (zh) 文档布局的解析方法、装置、电子设备和存储介质
US20140257810A1 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
JP2021179832A (ja) 変化検出プログラム、変化検出装置及び変化検出方法
CN112287102A (zh) 数据挖掘方法和装置
JP7256935B2 (ja) 辞書作成装置及び辞書作成方法
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
KR20210050130A (ko) 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
Cárdenas-Montes Depth-based outlier detection algorithm
US20180276568A1 (en) Machine learning method and machine learning apparatus
JP5063639B2 (ja) データ分類方法及び装置及びプログラム
US20220319504A1 (en) Generating aspects from attributes identified in digital video audio tracks
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN113704384A (zh) 语音识别生成代码的方法及装置、电子设备、存储介质
JP4592629B2 (ja) 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US10878330B2 (en) Methods and systems for identifying patterns in data using delimited feature-regions
KR20210039913A (ko) 인공지능 모델을 이용한 특허문서의 중요도 판단 방법, 장치 및 시스템
KR20210039916A (ko) 특허문서의 단어 세트 획득 방법 및 획득된 단어 세트를 바탕으로 특허문서의 유사도를 판단하기 위한 방법.