JP7465044B2 - 単語および複数単語の表現の性質を学習するための分類エンジン - Google Patents
単語および複数単語の表現の性質を学習するための分類エンジン Download PDFInfo
- Publication number
- JP7465044B2 JP7465044B2 JP2021519838A JP2021519838A JP7465044B2 JP 7465044 B2 JP7465044 B2 JP 7465044B2 JP 2021519838 A JP2021519838 A JP 2021519838A JP 2021519838 A JP2021519838 A JP 2021519838A JP 7465044 B2 JP7465044 B2 JP 7465044B2
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- word
- classifier
- category
- measure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title description 7
- 238000012549 training Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
Claims (12)
- コンピュータが実行する方法であって、
ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として、分類することが求められる第3の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第3の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含む、方法。 - 前記分類器を訓練することが、前記第1の複数のセンテンス中の前記第1の単語の文脈、および前記第2の複数のセンテンス中の前記第2の単語の文脈を識別することを含む、請求項1に記載の方法。
- 前記第1の複数のセンテンス中の前記第1の単語の前記文脈、および前記第2の複数のセンテンス中の前記第2の単語の前記文脈を識別することが、前記第1の複数のセンテンス中の前記第1の単語に近い単語を識別することと、前記第2の複数のセンテンス中の前記第2の単語に近い単語を識別することとを含む、請求項2に記載の方法。
- 前記陽性訓練データが、単語、フレーズ、接頭辞、または接尾辞のうちの1つまたは複数を含む、請求項1~3のいずれか1項に記載の方法。
- 前記分類器が、最近傍アルゴリズム、または単純ベイズ・アルゴリズムのうちの1つを含む、請求項1~4のいずれか1項に記載の方法。
- 前記ユーザに提供する前記コンテンツを選択することが、前記相関の尺度に基づいて逸話的なコンテンツを識別することを含む、請求項1~5のいずれか1項に記載の方法。
- 前記自動チャット応答を決定することが、
前記相関の尺度に基づいて問題の難易度を決定することと、前記問題の前記難易度に基づいて、前記問題をライブ・サポート・エージェントにエスカレーションするかどうかを選ぶことと
を含む、請求項1~6のいずれか1項に記載の方法。 - コンピュータが実行する方法であって、
ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として第3の単語を含むセンテンスを使用することにより前記第3の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含み、
前記区分が、抽象的であると定義される単語を含む、方法。 - コンピュータが実行する方法であって、
ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として第3の単語を含むセンテンスを使用することにより前記第3の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含み、
前記分類器を訓練することが、前記第1の複数のセンテンスおよび前記第2の複数のセンテンスから、非アルファベットの単語および特殊文字をフィルタリングして除くことを含む、方法。 - 前記分類器を訓練することが、前記第1の複数のセンテンス中の前記第1の単語をマスキングすることと、前記第2の複数のセンテンス中の前記第2の単語をマスキングすることとを含む、請求項1~9のいずれか1項に記載の方法。
- システムであって、1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに方法を実施させる命令を記憶する、非一過性のコンピュータ可読媒体とを備え、前記方法が、
ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として、分類することが求められる第3の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第3の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含む、システム。 - コンピュータ・プログラムであって、前記プログラムがコンピュータで実行されると、前記コンピュータが請求項1ないし10のいずれか1項に記載の方法を実行する、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/174,819 US11100287B2 (en) | 2018-10-30 | 2018-10-30 | Classification engine for learning properties of words and multi-word expressions |
US16/174,819 | 2018-10-30 | ||
PCT/IB2019/059160 WO2020089752A1 (en) | 2018-10-30 | 2019-10-25 | Classification engine for learning properties of words and multi-word expressions |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022504705A JP2022504705A (ja) | 2022-01-13 |
JP7465044B2 true JP7465044B2 (ja) | 2024-04-10 |
Family
ID=70328741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021519838A Active JP7465044B2 (ja) | 2018-10-30 | 2019-10-25 | 単語および複数単語の表現の性質を学習するための分類エンジン |
Country Status (5)
Country | Link |
---|---|
US (1) | US11100287B2 (ja) |
JP (1) | JP7465044B2 (ja) |
CN (1) | CN112889066B (ja) |
GB (1) | GB2593606B (ja) |
WO (1) | WO2020089752A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338992A (ja) | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書検索装置及びプログラム |
JP2008167226A (ja) | 2006-12-28 | 2008-07-17 | Hitachi Electronics Service Co Ltd | クレーム判定システム |
JP2012059183A (ja) | 2010-09-13 | 2012-03-22 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体 |
CN102682130A (zh) | 2012-05-17 | 2012-09-19 | 苏州大学 | 一种文本情感分类方法及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
US7260568B2 (en) * | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
US8667007B2 (en) * | 2011-05-26 | 2014-03-04 | International Business Machines Corporation | Hybrid and iterative keyword and category search technique |
CN102332012B (zh) * | 2011-09-13 | 2014-10-22 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
EP2862164B1 (en) * | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
US9559993B2 (en) * | 2014-10-02 | 2017-01-31 | Oracle International Corporation | Virtual agent proxy in a real-time chat service |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
CN105117384A (zh) * | 2015-08-19 | 2015-12-02 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
CN106649345A (zh) | 2015-10-30 | 2017-05-10 | 微软技术许可有限责任公司 | 用于新闻的自动会话创建器 |
US20170213138A1 (en) * | 2016-01-27 | 2017-07-27 | Machine Zone, Inc. | Determining user sentiment in chat data |
CN105787461B (zh) | 2016-03-15 | 2019-07-23 | 浙江大学 | 基于文本分类和条件随机场的文献不良反应实体识别方法 |
US10354009B2 (en) * | 2016-08-24 | 2019-07-16 | Microsoft Technology Licensing, Llc | Characteristic-pattern analysis of text |
CN106897428B (zh) * | 2017-02-27 | 2022-08-09 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107943792B (zh) * | 2017-11-24 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种语句分析方法、装置及终端设备、存储介质 |
CN108388608B (zh) | 2018-02-06 | 2020-08-04 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
-
2018
- 2018-10-30 US US16/174,819 patent/US11100287B2/en active Active
-
2019
- 2019-10-25 CN CN201980069803.3A patent/CN112889066B/zh active Active
- 2019-10-25 JP JP2021519838A patent/JP7465044B2/ja active Active
- 2019-10-25 GB GB2105726.0A patent/GB2593606B/en active Active
- 2019-10-25 WO PCT/IB2019/059160 patent/WO2020089752A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338992A (ja) | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書検索装置及びプログラム |
JP2008167226A (ja) | 2006-12-28 | 2008-07-17 | Hitachi Electronics Service Co Ltd | クレーム判定システム |
JP2012059183A (ja) | 2010-09-13 | 2012-03-22 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体 |
CN102682130A (zh) | 2012-05-17 | 2012-09-19 | 苏州大学 | 一种文本情感分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
梅澤佑介ほか,評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知,電子情報通信学会技術研究報告,社団法人電子情報通信学会,2012年01月26日,Vol.111, No.427,pp.47-52(NLC2011-64) |
Also Published As
Publication number | Publication date |
---|---|
WO2020089752A1 (en) | 2020-05-07 |
US20200134020A1 (en) | 2020-04-30 |
US11100287B2 (en) | 2021-08-24 |
GB202105726D0 (en) | 2021-06-09 |
GB2593606B (en) | 2022-06-15 |
CN112889066A (zh) | 2021-06-01 |
GB2593606A (en) | 2021-09-29 |
CN112889066B (zh) | 2023-06-23 |
JP2022504705A (ja) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11249774B2 (en) | Realtime bandwidth-based communication for assistant systems | |
US11093707B2 (en) | Adversarial training data augmentation data for text classifiers | |
US11625573B2 (en) | Relation extraction from text using machine learning | |
US10657962B2 (en) | Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach | |
Aggarwal et al. | Classification of fake news by fine-tuning deep bidirectional transformers based language model | |
US11164026B2 (en) | Graphical user interface generation based on image analysis | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
US20190294682A1 (en) | Latent Ambiguity Handling in Natural Language Processing | |
US11507828B2 (en) | Unsupervised hypernym induction machine learning | |
US20200401910A1 (en) | Intelligent causal knowledge extraction from data sources | |
US10796203B2 (en) | Out-of-sample generating few-shot classification networks | |
US20200160196A1 (en) | Methods and systems for detecting check worthy claims for fact checking | |
Lo et al. | An unsupervised multilingual approach for online social media topic identification | |
Dashtipour et al. | An ensemble based classification approach for persian sentiment analysis | |
US11934787B2 (en) | Intent determination in a messaging dialog manager system | |
Zayed et al. | Phrase-level metaphor identification using distributed representations of word meaning | |
Mani et al. | Hi, how can I help you?: Automating enterprise IT support help desks | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
Sundararajan et al. | Textual feature ensemble-based sarcasm detection in Twitter data | |
US10616532B1 (en) | Behavioral influence system in socially collaborative tools | |
JP7465044B2 (ja) | 単語および複数単語の表現の性質を学習するための分類エンジン | |
US20220269938A1 (en) | Presenting thought-provoking questions and answers in response to misinformation | |
US10971273B2 (en) | Identification of co-located artifacts in cognitively analyzed corpora | |
Oswal | Identifying and categorizing offensive language in social media | |
Akerkar et al. | Natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210507 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20210409 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220418 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240208 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20240313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7465044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |