CN116097237A - 文本相似度确定方法、装置及工业诊断方法、系统 - Google Patents

文本相似度确定方法、装置及工业诊断方法、系统 Download PDF

Info

Publication number
CN116097237A
CN116097237A CN202080104960.6A CN202080104960A CN116097237A CN 116097237 A CN116097237 A CN 116097237A CN 202080104960 A CN202080104960 A CN 202080104960A CN 116097237 A CN116097237 A CN 116097237A
Authority
CN
China
Prior art keywords
text
sentence
sentences
determining
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080104960.6A
Other languages
English (en)
Inventor
车效音
惠浩添
生若谷
王刚华
陆霆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN116097237A publication Critical patent/CN116097237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文本相似度确定方法和装置与工业诊断方法和系统。方法包括:对第一文本分割以生成m个句子,其中m为正整数(101);对第二文本分割以生成n个句子,其中n为正整数(102);确定m*n个第一句子对,其中每个所述第一句子对包含所述m个句子中的任一个句子及所述n个句子中的任一个句子(103);确定m*n个所述第一句子对中的每个第一句子对中两个句子之间的相关系数(104);基于m*n个所述第一句子对的相关系数,确定所述第一文本与所述第二文本之间的相似度(105)。无需设置手写规则即可确定文本相似度,节约了成本。还可以确定句子层面的相关系数,尤其适用于工业诊断系统。

Description

PCT国内申请,说明书已公开。

Claims (18)

  1. PCT国内申请,权利要求书已公开。
CN202080104960.6A 2020-09-27 2020-09-27 文本相似度确定方法、装置及工业诊断方法、系统 Pending CN116097237A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/118172 WO2022061833A1 (zh) 2020-09-27 2020-09-27 文本相似度确定方法、装置及工业诊断方法、系统

Publications (1)

Publication Number Publication Date
CN116097237A true CN116097237A (zh) 2023-05-09

Family

ID=80844862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080104960.6A Pending CN116097237A (zh) 2020-09-27 2020-09-27 文本相似度确定方法、装置及工业诊断方法、系统

Country Status (3)

Country Link
EP (1) EP4202714A4 (zh)
CN (1) CN116097237A (zh)
WO (1) WO2022061833A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463768A (en) 1994-03-17 1995-10-31 General Electric Company Method and system for analyzing error logs for diagnostics
AU2000276398A1 (en) * 2000-09-30 2002-04-15 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
JP6665061B2 (ja) * 2016-08-29 2020-03-13 日本電信電話株式会社 整合性判定装置、方法、及びプログラム
CN109033413B (zh) * 2018-03-12 2022-12-23 上海大学 一种基于神经网络的需求文档和服务文档匹配方法
CN109145299B (zh) * 2018-08-16 2022-06-21 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN110046244B (zh) * 2019-04-24 2021-06-08 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
CN111368037A (zh) * 2020-03-06 2020-07-03 平安科技(深圳)有限公司 基于Bert模型的文本相似度计算方法和装置

Also Published As

Publication number Publication date
EP4202714A1 (en) 2023-06-28
EP4202714A4 (en) 2024-05-22
WO2022061833A1 (zh) 2022-03-31

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN108304468B (zh) 一种文本分类方法以及文本分类装置
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
CN107977362B (zh) 一种用于中文文本定级以及计算中文文本难度评分的方法
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN110232112A (zh) 文章中关键词提取方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110929149A (zh) 一种工业设备故障维修推荐方法和系统
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN109213998A (zh) 中文错字检测方法及系统
CN116306600B (zh) 一种基于MacBert的中文文本纠错方法
CN112633001A (zh) 文本命名实体识别方法、装置、电子设备及存储介质
CN108536673B (zh) 新闻事件抽取方法及装置
CN113158695A (zh) 一种面向多语言混合文本的语义审核方法与系统
CN112633000A (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
CN114139537A (zh) 词向量的生成方法及装置
US20190095525A1 (en) Extraction of expression for natural language processing
CN112069818A (zh) 三元组预测模型生成方法、关系三元组提取方法和装置
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination