JP6982347B1 - コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 - Google Patents
コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 Download PDFInfo
- Publication number
- JP6982347B1 JP6982347B1 JP2020179942A JP2020179942A JP6982347B1 JP 6982347 B1 JP6982347 B1 JP 6982347B1 JP 2020179942 A JP2020179942 A JP 2020179942A JP 2020179942 A JP2020179942 A JP 2020179942A JP 6982347 B1 JP6982347 B1 JP 6982347B1
- Authority
- JP
- Japan
- Prior art keywords
- document
- language
- morphemes
- morpheme
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 127
- 238000000605 extraction Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 119
- 230000000877 morphologic effect Effects 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本プログラムは、コンピュータに、
第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第1の変換処理と、
前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第2の変換処理と、
前記第1の文書の形態素と前記第2の文書の形態素とで、一致する形態素を計数する計数処理と、
前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出する抽出処理と、
を実行させる。
<実施例>
図1〜図8を用いて、実施例について説明する。
図1は、本実施例における言語処理装置のハードウェア構成を例示するブロック図である。言語処理装置10は、CPU(Central Processing Unit)101と、主記憶部10
2と、各種インターフェースを通じて接続される入出力部品を有する。CPU101は、主記憶部102に記憶されるプログラムにより情報処理を実行する。
言語処理装置10は、例えば、有線インターフェース(以下、有線I/Fと言う)103と、通信インターフェース(以下、通信I/Fと言う)104と、外部記憶部105と、入力装置106と、出力装置107と、を備える。ここで、言語処理装置10は、例えば、パーソナルコンピュータ、スマートフォン、携帯情報端末と呼ばれる電子機器である。
F104又は無線I/Fを介してCPU101に接続されるものであっても、CPU101は、実施例に例示した処理を実施できる。
もよい。CPU101は、言語処理装置10全体を制御する機能を有する。
クドライブなどの不揮発性記憶装置を含む。ユーザの認証プログラムや、各種画像やオブジェクトに関するデータを含む文書抽出プログラム等が格納される。外部記憶部105には、さらに、各種データを管理するためのテーブルを含むデータベースが構築されていてもよい。
種接続端子を含んで構成され、CPU101と外部記憶部105等を接続する。これに限らず、有線I/F103の代わりに、無線I/Fが、CPU101と外部記憶部105、入力装置106及び出力装置107のいずれか、又は、それらのすべてを接続してもよい。 無線I/Fは、例えば、Bluetooth Low Energy (BLE)、無線LAN等である。
登録商標), Bluetooth Low Energy (BLE)のインターフェースを含んでもよい。
次に、実施例における、第1の文書と、第1の文書との関連性が判定される第2の文書とで、一致する言語を計数する処理を、図2〜図4を用いて説明する。図2は、実施例における、第1の文書を形態素(言語)に区切られた文書に変換し、重複する言語を削除する処理を例示するフローチャートである。
い」と9言語に分割して出力される。さらに図2の例では、形態素に原形が存在する言語は、第1の文書における形態素は原形に置換される(ステップA2)。具体的には、動詞の形態素「動か」(A11)及び「でき」(A12)は、それぞれ原形の「動く」(A31)及び「できる」(A32)に置換される。従って、上記9言語に分割された文書は、「機械|が|動く|ない|ので|作業|が|できる|ない」と9言語で構成された文脈が出力装置107に出力される(ステップA3)。
図3では、第2の文書である第2の文書としてウェブコンテンツ等が想定されている。ユーザが入力した第1の文書である第1の文書に含まれる各言語と一致する言語の数が、抽出対象において計数される。図3では、第2の文書は、「作業ができないのは、機械が動かないので仕方ないです」と言う文書である(ステップB1)。
実施例における、言語処理装置10に係るCPU101の抽出文書生成部1011による処理フローの例を、図5を用いて説明する。
実施例における、言語処理装置10のCPU101による全体処理フローの例を、図6を用いて説明する。
実施例において、言語処理装置10を使用して文書を抽出する処理の例を、図7及び図8を用いて説明する。以下の処理例では、検証用の文書データを特許庁HP(Home Page
)に存在する文書から取得し、抽出の対象である第2の文書として使用している。取得した文書データの内、1文書のファイルが 1,000 文字を超える場合、1,000文字毎のページ単位(文書部分)に文書ファイルを分割している。この文書部分について、第1の文書との関連性を判定する処理に関する抽出文書情報が生成される。
図7及び図8は、本発明の実施例における、長い文章を有する文書(以下、長文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。図7は、入力装置106の検索欄に第1の文書を入力及び検索後、文書の抽出結果として表示される画面の左側部分を表す。図8は、図7の画面で、抽出結果として表示された文書を押下した場合に、図7の画面とは別のウインドウで表示される画面(抽出された文書の詳細)の左側部分を表す。すなわち、図7及び図8は、第1の文書を用いた検索に基づく、文書の抽出結果を表す画面である。図面を図7及び図8に分割した理由は、上記の抽出結果が複数の項目により表示され、1つの図面に収めることが困難であるためである。また、抽出結果の項目を図7及び8に分けて、断片的に表すことにより、後述する実施例の説明に重要な点を拡大して表すことができ、本発明の理解が容易になると考えるためである。
して、35個が符号(言語)一致したことが表示された。そして、35個の符号(言語)が一致した文脈に係る文書が1件、図7の下部、「意味的に類似した文脈の抽出結果>>最も近いものが1件見つかりました。」の下欄に表示(抽出)された。抽出された文書のファイル名は、[data00000964.txt][3/21]である。[3/21]は、[data00000964.txt]の文書データが所定の文字数毎に分割され、全体部分が全体で21ページあり、抽出された文書部分は3ページ目に当たることを示す。
例2は、本発明の実施例における、図7で示した長文より短い文書(以下、中文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。例2では、例1の図7で使用した長文から、言語の数を減らし、一部の用語を異なる表現の用語に置き換えた中文に基づき、文書抽出の精度を検証した。本例における中文は「共同出願で減免申請をする時にオンラインの場合は、持分を証明する書面はどうすればよいのですか」である。該中文を、図7で使用した長文と比較すると、「(共有特許権)」「特許料」「特許料納付書」「提出」と言う用語等が削除されている。また「について」が「で」、「どのように」が「どう」、等のように、異なる表現に置換された用語を含む。さらに、図7で使用した長文には存在しなかった用語「時」が、中文に追加されている。ユーザの利便性を考慮すると、簡潔な用語、文章を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例2における中文は、ユーザが実際に言語処理装置10を使用する際に、入力装置106へ入力する文書に近い文書と仮定し得る。ユーザが中文を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語へ変換する処理により、中文は形態素の単位に分割された言語に変換される。すなわち、中文は形態素の単位(言語)に分割され、各言語に係る品詞の原形に変換され、重複する言語の重複分が削除された後、言語のまとまりである文脈が出力される。該中文の場合、言語処理装置10の処理で、第1の文書に対して、「共同|出願|で|減免|申請|を|する|時|に|オンライン|の|場合|は|、|持分|証明|書面|どう|ば|よい|です|か」、すなわち22言語に分割された文脈が出力された。その第1の文書に係る文脈の言語と、第2の文書(特許ホームページの全体)から分割された第2の文書部分に係る文脈の言語とで、言語の一致数が計数され、一致数の最大値として、21個が符号(言語)一致したことが表示された。そして、21個の符号(言語)が一致した文脈に係る文書が1件表示(抽出)された。
例3は、本発明の実施例における、例2で示した中文よりも短い文書(以下、短文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。例3では、例2で使用した中文から、言語の数を減らし、一部の用語を異なる表現の用語に置き換えた短文に基づき、文書抽出の精度を検証する。本例における短文は「減免申請をしたいのですが」である。該短文を、例2で使用した中文と比較すると、「共同」「出願」「オンライン」「持分」「証明」「書面」と言う用語等が削除されている。また「する」が「したい」等のように、異なる表現の用語に置き換えられている。ユーザの利便性を考慮すると、簡潔な用語、文章を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例3における短文は、ユーザが実際に言語処理装置10を使用し、入力装置106へ入力する文書に、さらに近い文書と仮定し得る。ユーザが短文の文書を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語への変換する処理により、短文は形態素の単位に分割された言語に変換される。すなわち、短文は形態素の単位(言語)に分割され、各言語に係る品詞の原形に変換され、重複する言語の重複分が削除された後、言語のまとまりである文脈が出力される。該短文の場合、言語処理装置10の処理で、第1の文書に対して、「減免|申請|を|する|たい|の|です|が」、すなわち8言語に分割された文脈が出力された。その第1の文書に係る文脈の言語と、第2の文書部分に係る文脈の言語とで、各言語の一致数が計数され、一致数の最大値として、8個が符号(言語)一致したことが表示された。そして、8個の符号(言語)が一致した文脈に係る文書が8件表示(抽出)された。
例4は、本発明の実施例における、例3で示した短文から助詞等を削除し、「減免」及び「申請」と言う名詞の用語のみを第1の文書として、ユーザが希望する文書を抽出する
処理の例である。本例では、短文「減免申請をしたいのですが」から「をしたいのですが」を削除し、残った用語「減免申請」に基づき、文書抽出の精度を検証する。ユーザの利便性を考慮すると、簡潔な用語を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例4における用語は、ユーザが実際に言語処理装置10を使用し、入力装置106へ入力する文書に、さらに近い文書と仮定し得る。ユーザが用語の文書を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語への変換する処理により、用語は形態素の単位に分割された言語に変換され、言語のまとまりである文脈が出力される。該用語の場合、言語処理装置10の処理で、第1の文書に対して、「減免|申請」、すなわち2言語に分割された文脈が出力された。第1の文書に係る文脈の言語と、第2の文書部分に係る文脈の言語とで、言語の一致数が計数され、一致数の最大値として、2個が符号(言語)一致したことが表示された。そして、2個の符号(言語)が一致した文脈に係る文書が、290件抽出された。
次に、実施例に比較して、従来の言語処理システムを使用して文書を抽出する処理の例を、図9〜図11を用いて説明する。なお、以下の処理例では、従来の言語処理システムの例として、特許庁HPの検索システムを使用する。本発明の言語処理装置10による処理と比較するため、例1〜例4と同一又は同様の長文、中文、短文、用語を用いて本検索システムの処理を検証する。
図9〜図11は、従来技術における、長文を第1の文書として、ユーザが希望する文書を抽出する処理の例である。図9は、従来技術である特許庁HPの検索システムの検索欄に例1と同一の文書を入力した例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/)を加工して作成)。図10は、例1と同一の文書に基づく文書の抽出結果の例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/)を加工して作成)。図11は、抽出結果として表示された文書のリンクを押下後、表示された文書の例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/system/process/tesuryo/genmen/genmen20190401/02_100.html)を加工して作成)。図9〜図11に表される図面は、例1と同一の文書に基づく検索及び文書抽出に係る一連の処理を表す図面として共通する。図面を図9〜図11に分割した理由は、図9に係る画面から遷移した画面が図10であり、図10から遷移した画面が図11となるため、1つの図面に収めることが困難だからである。また、上記一連の処理を図9、図10及び図11に分けて、断片的に表すことにより、後述する従来技術の説明に重要な点を拡大して表すことができ、従来技術の理解が容易になると考えるためである。
面はどのように提出すればよいですか」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該長文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された長文に類似する文書を検索する。検索システムは、検索された文書を長文に類似する順に整理し、長文と最も類似する文書及びリンク(特定のURLへアクセスできる、文字列等)を検索画面の上部に表示する。図10の例では、画面
の上部に最も類似度が高い文書として「新減免制度に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「新減免制度の手続に関するQ&A」に関するFAQ(Frequently Asked Questions)(図11)が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQの画面をユーザ自身がさらに確認することが必要となる。従って、本例では、ユーザが第1の文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
例6は、従来技術における、中文を第1の文書として文書を抽出する処理の例である。本例の中文として、例2と同様の中文「共同出願の減免申請をしたいのですが、オンラインの場合どのように提出すればよいですか」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該中文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された中文に類似する文書を検索する。検索システムは、検索された文書を中文に類似する順に整理し、中文と最も類似する文書を及びリンクを検索画面の上部に表示する。例6では、最も類似度が高い文書として、画面の上部に「旧減免制度に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「旧減免制度に関するQ&A」に関するFAQ(Frequently Asked Questions)のリンク及び「減免申請手続き全般について」の案内が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQの画面からさらにユーザ自身で各リンクを押下する、又は、案内を確認する等が必要となる。従って、本例では、ユーザが第1の文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
例7は、従来技術における、短文を第1の文書として文書を抽出する処理の例である。本例の短文として、例3と同一の短文「減免申請をしたいのですが」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該短文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された短文に類似する文書を検索する。検索システムは、検索された文書を短文に類似する順に整理し、短文と最も類似する文書及びリンクを検索画面の上部に表示する。例7では、最も類似度が高い文書として、画面の上部に「新減免制度の手続に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「新減免制度の手続に関するQ&A」に関するFAQ(Frequently Asked Questions)が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQをさらに確認する必要がある。従って、本例では、ユーザが対象文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
例8は、従来技術における、用語を第1の文書として文書を抽出する処理の例である。本例の用語として、例4と同一の用語「減免申請」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該用語を入力すると、該用語を含む検索対象用語の候補がプルダウンメニューに表示される。例8の場合は、用語「減免申請」を含む「減免申請」及び「減免申請書」の2つが候補として表示された。ユーザが「減免申請書」を押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された用語に類似する文書検索する。検索システムは、検索された文書を用語に類似する順に整理し、用語と最も類似す
る文書及びリンクを検索画面の上部に表示する。例8では、画面の上部に最も類似度が高い文書として「減免等の申請書の様式集」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「減免等の申請書の様式集」として「特許料減免申請書」の様式へのリンク等が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記案内を確認等する必要がある。従って、本例では、ユーザが対象文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
本実施形態における処理では、言語処理装置10のCPU101において、ユーザが入力装置106に入力する第1の文書を入力文取得部1013が取得し、言語抽出部1014が形態素解析の辞書に基づき、形態素の単位に区切られた言語からなる文脈に変換する。従って、上記処理は、プログラムが、コンピュータに実行させる、第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第1の変換処理の一部と言える。
、増加した言語の一致数に基づいて第2の文書部分を抽出することができ、ユーザが希望する文書に類似する文書部分を、簡便に抽出することができる。
る(ステップT8)。抽出結果出力部1017は、一致数が最大である文書部分を抽出する(ステップT9)。抽出結果出力部1017は、最大一致数を持つ対象IDに対応する文書部分を出力装置107に出力し、処理を終了する(ステップT10)。従って、上記処理は、計数処理において、第2の文書から、一致する形態素数が最大である文書部分を抽出させることの一部であると言える。
ために適した任意のタイプの媒体を含む。
101 CPU
102 主記憶部
103 有線I/F
104 通信I/F
105 外部記憶部
106 入力装置
107 出力装置
1011 抽出文書生成部
1012 抽出文書記憶部
1013 入力文取得部
1014 言語抽出部
1015 言語整理部
1016 対象抽出部
1017 抽出結果出力部
Claims (10)
- コンピュータに、
第1の文書を、形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成する第1の変換処理と、
前記第1の文書との関連性が判定される第2の文書を、形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成する第2の変換処理と、
前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数する計数処理と、
前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書との関連性が所定の条件を充足する前記第2の文書の一部またはすべてを抽出する抽出処理と、
を実行させるプログラム。 - 前記第1の変換処理及び第2の変換処理によって変換された区切られた文書は、前記形態素解析を実行したときに得られる品詞をすべて含む請求項1に記載のプログラム。
- 前記第1の変換処理及び第2の変換処理は、前記第1の文書および前記第2の文書それぞれにおける形態素を、前記形態素が属する品詞の原形に置換する置換処理をさらに実行させる請求項1又は2に記載のプログラム。
- 前記第2の文書を、所定の文字数を有する文書部分に分割する分割処理をさらに実行させ、
前記計数処理では、前記第1の文書の形態素と前記分割された文書部分の形態素とで、一致する形態素を計数させる請求項1から3のいずれか一項に記載のプログラム。 - 前記第2の文書は、ファイル単位で文書部分に分割されており、前記計数処理は、前記第1の文書の形態素と前記分割された文書部分の形態素とで、一致する形態素を計数させる請求項1から3のいずれか一項に記載のプログラム。
- 前記第2の文書に改行が存在する場合、前記改行を削除する削除処理をさらに実行させる請求項4又は5のいずれか一項に記載のプログラム。
- 前記計数処理では、前記第2の文書から、前記一致する形態素数が最大である文書部分を抽出させる請求項6に記載のプログラム。
- 前記プログラムは、押下を検出する検索ボタンへの入力装置による操作により、前記第1の変換処理と前記第2の変換処理と前記計数処理と前記抽出処理を実行する請求項1から7のいずれか一項に記載のプログラム。
- コンピュータが
第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成し、
前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成し、
前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数し、
前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出することを特徴とする文書抽出方法。 - 第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成し、
前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成し、
前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数し、
前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出する処理を実行するプロセッサを備える言語処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020179942A JP6982347B1 (ja) | 2020-10-27 | 2020-10-27 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020179942A JP6982347B1 (ja) | 2020-10-27 | 2020-10-27 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6982347B1 true JP6982347B1 (ja) | 2021-12-17 |
JP2022070720A JP2022070720A (ja) | 2022-05-13 |
Family
ID=79169994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020179942A Active JP6982347B1 (ja) | 2020-10-27 | 2020-10-27 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6982347B1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004171220A (ja) * | 2002-11-19 | 2004-06-17 | Yamatake Corp | 文書管理装置および方法 |
JP2004272352A (ja) * | 2003-03-05 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 |
JP2014106665A (ja) * | 2012-11-27 | 2014-06-09 | Hitachi Ltd | 文書検索装置、文書検索方法 |
JP2015203961A (ja) * | 2014-04-14 | 2015-11-16 | 株式会社toor | 文書抽出システム |
JP2019219724A (ja) * | 2018-06-15 | 2019-12-26 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
-
2020
- 2020-10-27 JP JP2020179942A patent/JP6982347B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004171220A (ja) * | 2002-11-19 | 2004-06-17 | Yamatake Corp | 文書管理装置および方法 |
JP2004272352A (ja) * | 2003-03-05 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 |
JP2014106665A (ja) * | 2012-11-27 | 2014-06-09 | Hitachi Ltd | 文書検索装置、文書検索方法 |
JP2015203961A (ja) * | 2014-04-14 | 2015-11-16 | 株式会社toor | 文書抽出システム |
JP2019219724A (ja) * | 2018-06-15 | 2019-12-26 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
Non-Patent Citations (1)
Title |
---|
柳瀬 利彦: "ディベートの意見文章生成のための分散表現を用いた文の並び替え", 一般社団法人人工知能学会 研究会 DOCMAS:データ指向構成マイニングとシミュレーション研究会, JPN6021012648, 12 November 2014 (2014-11-12), JP, pages 1 - 8, ISSN: 0004482400 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022070720A (ja) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182445B2 (en) | Method, apparatus, server, and storage medium for recalling for search | |
CN107025217B (zh) | 同义转换文生成方法、装置、记录介质以及机器翻译系统 | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
CN105095441A (zh) | 一种信息获取方法及装置 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
US9875232B2 (en) | Method and system for generating a definition of a word from multiple sources | |
JP6982347B1 (ja) | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP2008003656A (ja) | 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 | |
WO2023112101A1 (ja) | コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置 | |
WO2018179729A1 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP3471253B2 (ja) | 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体 | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
Bernhard et al. | Elal: An emotion lexicon for the analysis of alsatian theatre plays | |
JP6695538B1 (ja) | 類似文章検索装置およびプログラム | |
US20240311408A1 (en) | Search prompt method, device, and medium | |
US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
JP7223450B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
WO2023171790A1 (ja) | 文章作成支援装置及び文章作成支援プログラム | |
JP2018180890A (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
KR20190009061A (ko) | 문자 상표 검색 시스템 및 검색 서비스 제공 방법 | |
JP2009258887A (ja) | 機械翻訳装置及び機械翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201027 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210413 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6982347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |