JP7386466B1 - データ解析装置およびデータ解析プログラム - Google Patents
データ解析装置およびデータ解析プログラム Download PDFInfo
- Publication number
- JP7386466B1 JP7386466B1 JP2023539125A JP2023539125A JP7386466B1 JP 7386466 B1 JP7386466 B1 JP 7386466B1 JP 2023539125 A JP2023539125 A JP 2023539125A JP 2023539125 A JP2023539125 A JP 2023539125A JP 7386466 B1 JP7386466 B1 JP 7386466B1
- Authority
- JP
- Japan
- Prior art keywords
- vector
- data
- vector space
- feature vectors
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 643
- 238000004364 calculation method Methods 0.000 claims abstract description 99
- 238000013507 mapping Methods 0.000 claims abstract description 68
- 239000000126 substance Substances 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 34
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- OQIQSTLJSLGHID-WNWIJWBNSA-N aflatoxin B1 Chemical compound C=1([C@@H]2C=CO[C@@H]2OC=1C=C(C1=2)OC)C=2OC(=O)C2=C1CCC2=O OQIQSTLJSLGHID-WNWIJWBNSA-N 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 239000002115 aflatoxin B1 Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
W*=U・VT,(U,VはSVD(Y・XT)の左右特異行列) ・・・(式4)
O,1,C=C,[C@H],([C@H]1O2),c3,c2,cc,(OC),c4,c3,OC,(=O),C5=C4,CCC,(=O),5
2,2’ 第2のベクトル算出部
3,3’ ベクトル写像部
4 データ解析部
10,10’ データ解析装置
31 単語抽出部
31’ 要素抽出部
32,32’ ベクトル算出部
32A 文章ベクトル算出部
32A’ 化学式ベクトル算出部
32B 単語ベクトル算出部
32B’ 要素ベクトル算出部
33,33’ 指標値算出部
34 単語特徴ベクトル特定部
34’ 化学式特徴ベクトル特定部
Claims (6)
- 第1のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第1所定事項に関する複数の特徴ベクトルを算出することにより、第1のベクトル空間を形成する第1のベクトル算出部と、
上記第1のデータ集合とは異なる第2のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第1所定事項と同じまたは異なる第2所定事項に関する複数の特徴ベクトルを算出することにより、第2のベクトル空間を形成する第2のベクトル算出部と、
上記第1のベクトル空間に含まれる特徴ベクトルであって、上記第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像するベクトル写像部と、
上記第2のベクトル空間において、上記第2のベクトル算出部により上記第2のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像部により上記第1のベクトル空間から上記第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析部とを備え、
上記写像ベクトルは、上記第1のベクトル算出部により算出された複数の特徴ベクトルおよび上記第2のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
ことを特徴とするデータ解析装置。 - 上記写像ベクトルは、上記第1のベクトル算出部により算出された複数の特徴ベクトルおよび上記第2のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルであることを特徴とする請求項1に記載のデータ解析装置。
- 上記ベクトル写像部は、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる上記同義性の特徴ベクトルを対象として、上記第1のベクトル空間に含まれる上記同義性の特徴ベクトルと上記第2のベクトル空間に含まれる上記同義性の特徴ベクトルとを乗算し、当該乗算により得られる行列を特異値分解することによって得られる左右の特異行列を乗算することにより、上記固有ベクトルを求める
ことを特徴とする請求項2に記載のデータ解析装置。 - 上記第1のデータ集合は第1の分野のコーパス、上記第1所定事項は単語であり、上記第1のベクトル算出部は、上記第1の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記第2のデータ集合は第2の分野のコーパス、上記第2所定事項は単語であり、上記第2のベクトル算出部は、上記第2の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記ベクトル写像部は、上記第1のベクトル空間に含まれる単語特徴ベクトルであって、上記第2のベクトル空間に含まれる単語特徴ベクトルと同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像する
ことを特徴とする請求項1~3の何れか1項に記載のデータ解析装置。 - 上記第1のデータ集合および上記第2のデータ集合の何れか一方が化合物の単語が含まれる文章データのデータ集合であり、他方が化合物の化学構造を文字列で表した化学式データのデータ集合であり、
上記第1のベクトル算出部および上記第2のベクトル算出部の何れか一方は、複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記第1のベクトル算出部および上記第2のベクトル算出部の何れか他方は、複数の化学式データから、複数の化学式と化学式内に含まれる複数の文字列との関係性を反映した複数の化学式特徴ベクトルを算出し、
上記ベクトル写像部は、上記第1のベクトル空間に含まれる単語特徴ベクトルであって、上記第2のベクトル空間に含まれる化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像し、あるいは、上記第1のベクトル空間に含まれる化学式特徴ベクトルであって、上記第2のベクトル空間に含まれる単語特徴ベクトルの単語と同義性を有しない化学式の化学式特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像する
ことを特徴とする請求項1~3の何れか1項に記載のデータ解析装置。 - 第1のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第1所定事項に関する複数の特徴ベクトルを算出することにより、第1のベクトル空間を形成する第1のベクトル算出手段、
上記第1のデータ集合とは異なる第2のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第1所定事項と同じまたは異なる第2所定事項に関する複数の特徴ベクトルを算出することにより、第2のベクトル空間を形成する第2のベクトル算出手段、
上記第1のベクトル空間に含まれる特徴ベクトルであって、上記第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像するベクトル写像手段、および
上記第2のベクトル空間において、上記第2のベクトル算出手段により上記第2のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像手段により上記第1のベクトル空間から上記第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析手段
としてコンピュータを機能させ、
上記写像ベクトルは、上記第1のベクトル算出手段により算出された複数の特徴ベクトルおよび上記第2のベクトル算出手段により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
データ解析プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/046938 WO2024134784A1 (ja) | 2022-12-20 | 2022-12-20 | データ解析装置およびデータ解析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7386466B1 true JP7386466B1 (ja) | 2023-11-27 |
Family
ID=88917939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023539125A Active JP7386466B1 (ja) | 2022-12-20 | 2022-12-20 | データ解析装置およびデータ解析プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US12026461B1 (ja) |
EP (1) | EP4411588A4 (ja) |
JP (1) | JP7386466B1 (ja) |
KR (1) | KR102689965B1 (ja) |
WO (1) | WO2024134784A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059077A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
JP2020098646A (ja) * | 2015-06-19 | 2020-06-25 | 株式会社Preferred Networks | クロスドメイン時系列データ変換装置、方法、およびシステム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5364996U (ja) | 1976-11-04 | 1978-05-31 | ||
JP3163185B2 (ja) * | 1992-11-27 | 2001-05-08 | 株式会社東芝 | パターン認識装置およびパターン認識方法 |
US6408321B1 (en) * | 1999-03-24 | 2002-06-18 | International Business Machines Corporation | Method and apparatus for mapping components of descriptor vectors to a space that discriminates between groups |
JP2006119714A (ja) * | 2004-10-19 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 |
JP5364996B2 (ja) | 2007-12-17 | 2013-12-11 | 日本電気株式会社 | 類似ユーザ発見システム、類似ユーザ発見方法および類似ユーザ発見プログラム |
US8359282B2 (en) | 2009-01-12 | 2013-01-22 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
JP2011022912A (ja) | 2009-07-17 | 2011-02-03 | Institute Of Physical & Chemical Research | カーネル主成分分析方法、カーネル主成分分析装置、カーネル主成分分析プログラム |
JP4877374B2 (ja) * | 2009-09-02 | 2012-02-15 | 株式会社豊田中央研究所 | 画像処理装置及びプログラム |
JP3163185U (ja) | 2010-07-22 | 2010-09-30 | 株式会社グリーン・ライティング | 宝飾品ショーケース |
US8700580B1 (en) * | 2011-04-29 | 2014-04-15 | Google Inc. | Moderation of user-generated content |
JP6915809B2 (ja) * | 2018-05-02 | 2021-08-04 | 株式会社Fronteo | 事象予測装置、予測モデル生成装置および事象予測用プログラム |
US11704552B2 (en) * | 2018-10-29 | 2023-07-18 | Microsoft Technology Licensing, Llc | Task detection in communications using domain adaptation |
US11393560B2 (en) * | 2018-11-13 | 2022-07-19 | Recursion Pharmaceuticals, Inc. | Systems and methods for high throughput compound library creation |
US20200192973A1 (en) * | 2018-12-17 | 2020-06-18 | Sap Se | Classification of non-time series data |
US11321312B2 (en) * | 2019-01-14 | 2022-05-03 | ALEX—Alternative Experts, LLC | Vector-based contextual text searching |
JP6976537B1 (ja) * | 2020-10-08 | 2021-12-08 | 株式会社Fronteo | 情報検索装置、情報検索方法および情報検索用プログラム |
CN113299346B (zh) * | 2021-04-01 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
US20230082663A1 (en) * | 2021-08-31 | 2023-03-16 | Jio Platforms Limited | Automated system and method for hyper parameter tuning and retrofitting formulation |
US20230385541A1 (en) * | 2022-05-29 | 2023-11-30 | One AI, Inc. | Method and system for producing unified natural language processing objects |
-
2022
- 2022-12-20 WO PCT/JP2022/046938 patent/WO2024134784A1/ja unknown
- 2022-12-20 EP EP22936714.9A patent/EP4411588A4/en active Pending
- 2022-12-20 US US18/554,324 patent/US12026461B1/en active Active
- 2022-12-20 KR KR1020237032491A patent/KR102689965B1/ko active IP Right Grant
- 2022-12-20 JP JP2023539125A patent/JP7386466B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020098646A (ja) * | 2015-06-19 | 2020-06-25 | 株式会社Preferred Networks | クロスドメイン時系列データ変換装置、方法、およびシステム |
JP2017059077A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4411588A1 (en) | 2024-08-07 |
WO2024134784A1 (ja) | 2024-06-27 |
US20240202438A1 (en) | 2024-06-20 |
KR20240101509A (ko) | 2024-07-02 |
EP4411588A4 (en) | 2024-08-07 |
US12026461B1 (en) | 2024-07-02 |
KR102689965B1 (ko) | 2024-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984344B2 (en) | Document classifying device | |
US10783451B2 (en) | Ensemble machine learning for structured and unstructured data | |
JP2020500371A (ja) | 意味的検索のための装置および方法 | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
KR20200013130A (ko) | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치 | |
JP2006301920A (ja) | 文書分類プログラム、文書分類方法および文書分類装置 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
WO2019093172A1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
KR20120047622A (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
JP7116969B2 (ja) | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム | |
JP7386466B1 (ja) | データ解析装置およびデータ解析プログラム | |
Liu et al. | Extracting biomedical events from pairs of text entities | |
JP6976537B1 (ja) | 情報検索装置、情報検索方法および情報検索用プログラム | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
Laouar et al. | Large-scale similarity search with Optimal Transport | |
Rana et al. | Concept extraction from ambiguous text document using k-means | |
WO2024180608A1 (ja) | データ抽出装置、データ抽出方法及びプログラム | |
JP2019211884A (ja) | 情報検索システム | |
Anand et al. | Integrating and querying similar tables from PDF documents using deep learning | |
WO2022185442A1 (ja) | 情報解析装置、情報解析方法および情報解析用プログラム | |
CN115114412B (zh) | 文档中的信息检索方法及电子设备、存储介质 | |
JPH11154160A (ja) | データ検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230626 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7386466 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |