JP2023014348A - 生成方法、次元圧縮方法、表示方法および情報処理装置 - Google Patents
生成方法、次元圧縮方法、表示方法および情報処理装置 Download PDFInfo
- Publication number
- JP2023014348A JP2023014348A JP2022193695A JP2022193695A JP2023014348A JP 2023014348 A JP2023014348 A JP 2023014348A JP 2022193695 A JP2022193695 A JP 2022193695A JP 2022193695 A JP2022193695 A JP 2022193695A JP 2023014348 A JP2023014348 A JP 2023014348A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- word
- compression
- vectors
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 64
- 230000006835 compression Effects 0.000 title description 199
- 238000007906 compression Methods 0.000 title description 198
- 239000013598 vector Substances 0.000 claims abstract description 389
- 230000010365 information processing Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 39
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 31
- 235000019580 granularity Nutrition 0.000 description 15
- 239000000284 extract Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Abstract
Description
10B テキスト圧縮ファイル
15 辞書情報
20A 検索クエリ
31 第1候補リスト
32 第2候補リスト
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a 単語ベクトルテーブル
140b 次元圧縮単語ベクトルテーブル
140c 単語インデックス
140d 同義語インデックス
140e 同義文インデックス
140f 文ベクトルテーブル
140g 動的辞書
150 制御部
150a 受付部
150b 次元圧縮部
150c 生成処理部
150d 抽出部
150e 特定部
150f グラフ生成部
Claims (8)
- テキストファイルを受け付け、
受け付けた前記テキストファイルに含まれるいずれかの単語に応じた第1のベクトルを特定し、
複数の単語に応じた複数のベクトルを記憶する記憶部を参照して、前記複数のベクトルのうち、前記第1のベクトルとの類似度が基準以上となる第2のベクトルを特定し、
前記テキストファイルに前記いずれかの単語が含まれることを示す情報を、前記第2のベクトルに対応付ける情報を生成する
処理をコンピュータが実行することを特徴とする生成方法。 - 分類レベルに応じた類似度の複数の基準値を基にして、前記テキストファイルに含まれる複数の単語のうち、ベクトル同士の類似度が基準値以上となる単語グループに属する各単語に対して同一のベクトルに対応付ける処理を、異なる分類レベル毎に実行し、
前記テキストファイルに含まれるある単語グループに属する単語のオフセットと、前記ある単語グループに属する単語のベクトルとを対応付けた転置インデックスを、異なる分類レベル毎に生成する処理を更に実行することを特徴とする請求項1に記載の生成方法。 - 検索条件に含まれるテキストを受け付け、
受け付けた前記テキストに含まれるいずれかの単語に応じたベクトルを特定し、
特定した前記ベクトルと、前記分類レベル毎のいずれかの転置インデックスとを基にして、前記ベクトルに対応する単語を含むテキストファイルを特定する処理を更に実行することを特徴とする請求項2に記載の生成方法。 - 前記テキストファイルを特定する処理は、前記分類レベル毎の転置インデックスに基づいて検索したテキストファイルの数を基にして、前記転置インデックスを切り替えることを特徴とする請求項3に記載の生成方法。
- 文字列に対応する複数次元のベクトルを基にして、前記ベクトルを次元毎に成分分解された複数の基底ベクトルを円状に分散配置し、
前記複数の基底ベクトルのうち、第1の基底ベクトルに対して、前記第1の基底ベクトルを除く他の第2の基底ベクトルを直交変換した値を積算することで、前記第1の基底ベクトルの値を算出し、
前記ベクトルに含まれる複数次元を、前記第1の基底ベクトルに対応する次元に圧縮し、圧縮した次元の値を、前記算出する処理によって算出された第1の基底ベクトルの値に設定する
処理をコンピュータが実行することを特徴とする次元圧縮方法。 - テキストを受け付け、
受け付けた前記テキストに含まれる複数の単語または文に応じたベクトルの次元を次元圧縮し、
前記複数の単語または文に対応する次元圧縮されたベクトルの次元のうち、2次元のベクトルの値に応じた位置をそれぞれグラフにプロットした画像情報を生成し、
生成した画像情報を表示する
処理をコンピュータが実行することを特徴とする表示方法。 - テキストファイルを受け付ける受付部と、
受け付けた前記テキストファイルに含まれるいずれかの単語に応じた第1のベクトルを特定し、複数の単語に応じた複数のベクトルを記憶する記憶部を参照して、前記複数のベクトルのうち、前記第1のベクトルとの類似度が基準以上となる第2のベクトルを特定し、前記テキストファイルに前記いずれかの単語が含まれることを示す情報を、前記第2のベクトルに対応付ける情報を生成する生成処理部と
を有することを特徴とする情報処理装置。 - テキストを受け付ける受付部と、
受け付けた前記テキストに含まれる複数の単語または文に応じたベクトルの次元を次元圧縮し、前記複数の単語または文に対応する次元圧縮されたベクトルの次元のうち、2次元のベクトルの値に応じた位置をそれぞれグラフにプロットした画像情報を生成し、生成した画像情報を表示するグラフ生成部と
を有することを特徴とする情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022193695A JP2023014348A (ja) | 2019-04-19 | 2022-12-02 | 生成方法、次元圧縮方法、表示方法および情報処理装置 |
JP2023218382A JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021514773A JP7367754B2 (ja) | 2019-04-19 | 2019-04-19 | 特定方法および情報処理装置 |
PCT/JP2019/016847 WO2020213158A1 (ja) | 2019-04-19 | 2019-04-19 | 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 |
JP2022193695A JP2023014348A (ja) | 2019-04-19 | 2022-12-02 | 生成方法、次元圧縮方法、表示方法および情報処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514773A Division JP7367754B2 (ja) | 2019-04-19 | 2019-04-19 | 特定方法および情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023218382A Division JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023014348A true JP2023014348A (ja) | 2023-01-26 |
Family
ID=72837136
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514773A Active JP7367754B2 (ja) | 2019-04-19 | 2019-04-19 | 特定方法および情報処理装置 |
JP2022193695A Pending JP2023014348A (ja) | 2019-04-19 | 2022-12-02 | 生成方法、次元圧縮方法、表示方法および情報処理装置 |
JP2023218382A Pending JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514773A Active JP7367754B2 (ja) | 2019-04-19 | 2019-04-19 | 特定方法および情報処理装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023218382A Pending JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220035848A1 (ja) |
EP (2) | EP4191434A1 (ja) |
JP (3) | JP7367754B2 (ja) |
CN (1) | CN113728316A (ja) |
AU (2) | AU2019441125B2 (ja) |
WO (1) | WO2020213158A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239668B (zh) * | 2021-05-31 | 2023-06-23 | 平安科技(深圳)有限公司 | 关键词智能提取方法、装置、计算机设备及存储介质 |
AU2021451504A1 (en) | 2021-06-14 | 2023-12-07 | Fujitsu Limited | Information processing program, information processing method, and information processing device |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP2002230021A (ja) | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2006119714A (ja) | 2004-10-19 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 |
JP2006146355A (ja) | 2004-11-16 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索方法および装置 |
US8041694B1 (en) * | 2007-03-30 | 2011-10-18 | Google Inc. | Similarity-based searching |
US10678765B2 (en) * | 2014-03-31 | 2020-06-09 | Rakuten, Inc. | Similarity calculation system, method of calculating similarity, and program |
CN106021626A (zh) * | 2016-07-27 | 2016-10-12 | 成都四象联创科技有限公司 | 基于数据挖掘的数据搜索方法 |
CN106407280B (zh) * | 2016-08-26 | 2020-02-14 | 合一网络技术(北京)有限公司 | 查询目标匹配方法及装置 |
JP6722615B2 (ja) | 2017-04-07 | 2020-07-15 | 日本電信電話株式会社 | クエリクラスタリング装置、方法、及びプログラム |
EP3611636A4 (en) * | 2017-04-11 | 2020-04-08 | Sony Corporation | INFORMATION PROCESSING DEVICE AND PROCESSING PROCESS |
JP6745761B2 (ja) * | 2017-06-15 | 2020-08-26 | Kddi株式会社 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
-
2019
- 2019-04-19 WO PCT/JP2019/016847 patent/WO2020213158A1/ja active Application Filing
- 2019-04-19 EP EP22212422.4A patent/EP4191434A1/en not_active Withdrawn
- 2019-04-19 EP EP19925106.7A patent/EP3958147A4/en not_active Withdrawn
- 2019-04-19 CN CN201980095477.3A patent/CN113728316A/zh active Pending
- 2019-04-19 JP JP2021514773A patent/JP7367754B2/ja active Active
- 2019-04-19 AU AU2019441125A patent/AU2019441125B2/en active Active
-
2021
- 2021-10-13 US US17/500,104 patent/US20220035848A1/en active Pending
-
2022
- 2022-12-02 JP JP2022193695A patent/JP2023014348A/ja active Pending
- 2022-12-21 AU AU2022291509A patent/AU2022291509A1/en active Pending
-
2023
- 2023-12-25 JP JP2023218382A patent/JP2024023870A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220035848A1 (en) | 2022-02-03 |
EP3958147A4 (en) | 2022-07-06 |
CN113728316A (zh) | 2021-11-30 |
WO2020213158A1 (ja) | 2020-10-22 |
JP7367754B2 (ja) | 2023-10-24 |
AU2019441125A1 (en) | 2021-11-11 |
AU2019441125B2 (en) | 2023-02-02 |
JPWO2020213158A1 (ja) | 2021-12-09 |
EP4191434A1 (en) | 2023-06-07 |
EP3958147A1 (en) | 2022-02-23 |
JP2024023870A (ja) | 2024-02-21 |
AU2022291509A1 (en) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023014348A (ja) | 生成方法、次元圧縮方法、表示方法および情報処理装置 | |
JP7024364B2 (ja) | 特定プログラム、特定方法および情報処理装置 | |
US10331717B2 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
CN111222314B (zh) | 版式文档的比对方法、装置、设备及存储介质 | |
JP6589639B2 (ja) | 検索システム、検索方法およびプログラム | |
EP3848935A1 (en) | Specification method, specification program, and information processing device | |
JP7176233B2 (ja) | 検索方法、検索プログラムおよび検索装置 | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
WO2022264216A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
US10936816B2 (en) | Non-transitory computer-readable storage medium, analysis method, and analysis device | |
JP6972788B2 (ja) | 特定プログラム、特定方法および情報処理装置 | |
JP7135399B2 (ja) | 特定プログラム、特定方法および情報処理装置 | |
US20220261430A1 (en) | Storage medium, information processing method, and information processing apparatus | |
WO2011118428A1 (ja) | 要求獲得システム、要求獲得方法、及び要求獲得用プログラム | |
JP6972653B2 (ja) | 解析プログラム、解析方法および解析装置 | |
US20240086439A1 (en) | Non-transitory computer-readable recording medium storing information processing program, information processing method, and information processing apparatus | |
KR100862583B1 (ko) | 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 | |
WO2022264385A1 (ja) | 検索方法、検索プログラムおよび情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240327 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240416 |