CN116097237A - 文本相似度确定方法、装置及工业诊断方法、系统 - Google Patents
文本相似度确定方法、装置及工业诊断方法、系统 Download PDFInfo
- Publication number
- CN116097237A CN116097237A CN202080104960.6A CN202080104960A CN116097237A CN 116097237 A CN116097237 A CN 116097237A CN 202080104960 A CN202080104960 A CN 202080104960A CN 116097237 A CN116097237 A CN 116097237A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- sentences
- determining
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文本相似度确定方法和装置与工业诊断方法和系统。方法包括:对第一文本分割以生成m个句子,其中m为正整数(101);对第二文本分割以生成n个句子,其中n为正整数(102);确定m*n个第一句子对,其中每个所述第一句子对包含所述m个句子中的任一个句子及所述n个句子中的任一个句子(103);确定m*n个所述第一句子对中的每个第一句子对中两个句子之间的相关系数(104);基于m*n个所述第一句子对的相关系数,确定所述第一文本与所述第二文本之间的相似度(105)。无需设置手写规则即可确定文本相似度,节约了成本。还可以确定句子层面的相关系数,尤其适用于工业诊断系统。
Description
PCT国内申请,说明书已公开。
Claims (18)
- PCT国内申请,权利要求书已公开。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/118172 WO2022061833A1 (zh) | 2020-09-27 | 2020-09-27 | 文本相似度确定方法、装置及工业诊断方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116097237A true CN116097237A (zh) | 2023-05-09 |
Family
ID=80844862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080104960.6A Pending CN116097237A (zh) | 2020-09-27 | 2020-09-27 | 文本相似度确定方法、装置及工业诊断方法、系统 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4202714A4 (zh) |
CN (1) | CN116097237A (zh) |
WO (1) | WO2022061833A1 (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5463768A (en) | 1994-03-17 | 1995-10-31 | General Electric Company | Method and system for analyzing error logs for diagnostics |
AU2000276398A1 (en) * | 2000-09-30 | 2002-04-15 | Intel Corporation (A Corporation Of Delaware) | A method and apparatus for determining text passage similarity |
CN106202055A (zh) * | 2016-07-27 | 2016-12-07 | 湖南蚁坊软件有限公司 | 一种针对长文本的相似性判定方法 |
JP6665061B2 (ja) * | 2016-08-29 | 2020-03-13 | 日本電信電話株式会社 | 整合性判定装置、方法、及びプログラム |
CN109033413B (zh) * | 2018-03-12 | 2022-12-23 | 上海大学 | 一种基于神经网络的需求文档和服务文档匹配方法 |
CN109145299B (zh) * | 2018-08-16 | 2022-06-21 | 北京金山安全软件有限公司 | 一种文本相似度确定方法、装置、设备及存储介质 |
CN110046244B (zh) * | 2019-04-24 | 2021-06-08 | 中国人民解放军国防科技大学 | 一种用于问答系统的答案选择方法 |
CN111368037A (zh) * | 2020-03-06 | 2020-07-03 | 平安科技(深圳)有限公司 | 基于Bert模型的文本相似度计算方法和装置 |
-
2020
- 2020-09-27 WO PCT/CN2020/118172 patent/WO2022061833A1/zh unknown
- 2020-09-27 EP EP20954684.5A patent/EP4202714A4/en active Pending
- 2020-09-27 CN CN202080104960.6A patent/CN116097237A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4202714A1 (en) | 2023-06-28 |
EP4202714A4 (en) | 2024-05-22 |
WO2022061833A1 (zh) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
US10163063B2 (en) | Automatically mining patterns for rule based data standardization systems | |
CN107977362B (zh) | 一种用于中文文本定级以及计算中文文本难度评分的方法 | |
CN106407113B (zh) | 一种基于Stack Overflow和commit库的bug定位方法 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN110929149A (zh) | 一种工业设备故障维修推荐方法和系统 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN116306600B (zh) | 一种基于MacBert的中文文本纠错方法 | |
CN112633001A (zh) | 文本命名实体识别方法、装置、电子设备及存储介质 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN113158695A (zh) | 一种面向多语言混合文本的语义审核方法与系统 | |
CN112633000A (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN115563515A (zh) | 文本相似性检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |