CN116578673B - 数字经济领域基于语言逻辑学的文本特征检索方法 - Google Patents

数字经济领域基于语言逻辑学的文本特征检索方法 Download PDF

Info

Publication number
CN116578673B
CN116578673B CN202310808912.0A CN202310808912A CN116578673B CN 116578673 B CN116578673 B CN 116578673B CN 202310808912 A CN202310808912 A CN 202310808912A CN 116578673 B CN116578673 B CN 116578673B
Authority
CN
China
Prior art keywords
scheme
similar
content
identification
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310808912.0A
Other languages
English (en)
Other versions
CN116578673A (zh
Inventor
彭璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingxiao Wenyuan Education Technology Co ltd
Original Assignee
Beijing Lingxiao Wenyuan Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lingxiao Wenyuan Education Technology Co ltd filed Critical Beijing Lingxiao Wenyuan Education Technology Co ltd
Priority to CN202310808912.0A priority Critical patent/CN116578673B/zh
Publication of CN116578673A publication Critical patent/CN116578673A/zh
Application granted granted Critical
Publication of CN116578673B publication Critical patent/CN116578673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了数字经济领域基于语言逻辑学的文本特征检索方法,属于文本内容检测技术领域,步骤如下:S1、建立识别库,识别库分为两个区,分别是识别区与存储区,对撰写好的方案内容进行提取,将提取到的内容载入到所述识别区,所述存储区中储存有若干个不同的方案;S2、识别区对提取到的内容进行一级分类,得到一级分类结果;S3、识别区对一级分类结果进行二级分类,得到二级分类结果;S4、将二级分类结果与存储区中的内容进行筛查,确定相似方案;S5、将本方案与相似方案进行比较,计算得出重复度;S6、将相似方案按照重复度从高到低依次输出。采用上述方法,对高频使用的词语进行归类,计算重复度,使技术人员找到相似文件,方便修改。

Description

数字经济领域基于语言逻辑学的文本特征检索方法
技术领域
本发明涉及文本内容检测技术领域,尤其是涉及数字经济领域基于语言逻辑学的文本特征检索方法。
背景技术
随着互联网技术的快速发展,人们每天接触到的信息量在极速攀升,现在的方案数量和种类都非常的多,在不知不觉中,就会有方案相似而发生冲突的地方,如果通过人工进行筛查,会进行大量的重复工作,需要耗费大量的精力与时间,而且人工的筛查还会有一定的偏差,因此,为了能有效解决方案中的特征点相似问题,提出了数字经济领域基于语言逻辑学的文本特征检索方法。
发明内容
本发明的目的是提供数字经济领域基于语言逻辑学的文本特征检索方法,先统一方案的格式,避免因为格式问题而增加无意义的工作,在具体内容中进行一次分类,分类出当前方案属于方法类还是结构类,在实践操作中进行二级分类,确定方案中的词语使用频次和词语表意来归类出方案内容的倾向,在相似的领域作用的方案中,比对相同作用的语句重复度,最后按照重复度的高低输出相似方案。
为实现上述目的,本发明提供了数字经济领域基于语言逻辑学的文本特征检索方法,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,对撰写好的方案内容进行提取,将提取到的内容载入到所述识别区,所述存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果;
S3、识别区对一级分类结果进行二级分类,得到二级分类结果;
S4、将二级分类结果与存储区中的内容进行筛查,确定相似方案;
S5、将本方案与相似方案进行比较,计算得出重复度;
S6、将相似方案按照重复度从高到低依次输出。
优选的,所述步骤S1中,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作。
优选的,所述步骤S2中,一级分类分为方法类和结构类。
优选的,所述步骤S2中,一级分类方法是对所述步骤S1中提取到识别区的内容进行词语识别,在方案的具体内容的项目中分别统计动词与名词的数量,当动词数量大于名词数量时分为方法类,当名词数量大于动词数量时分为结构类。
优选的,所述步骤S3中,二级分类方法的具体过程为:统计实践操作项目中的相同词语的使用频次,并根据词语的词性和使用频次进行分类,方法类分为目标群体、过程和结果,结构类分为部件、连接和驱动。
优选的,所述步骤S4中,筛查的过程为:在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类或结构类,并在存储区中找到相同领域作用的方案作为相似方案。
优选的,所述步骤S5中的比较方法,具体过程为:设置一个对比值,在相似方案中,统计词语数量,与识别区中的高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度。
因此,本发明采用上述方法的数字经济领域基于语言逻辑学的文本特征检索方法,有以下有益效果:
(1)本发明统一了撰写格式,避免了因为格式不同而造成的内容会分散的问题。
(2)本发明一级分类分为方法类和结构类,统计动词和名词的数量,方法类是描述的行为,所以动词数量较多,结构类是描述的部件连接,所以名词较多,这样统计的方法快速便捷,准确度较高。
(3)本发明二级分类对方法类和结构类分别细分出了不同项目,可以确定方案中的技术倾向,在方法类中,确定方案的目标群体,执行过程和最终结果,用于后续步骤的重复度对比,在结构类中,确定方案的部件、连接关系和驱动关系,用于后续步骤的重复度对比,二级分类细分后,能确定方案的具体倾向,从而对重复度进行相应的计算。
(4)本发明最后按照重复度输出文件,撰写人员只需要自行对比重复度较高的文件,极大的减轻了工作量,提升效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明数字经济领域基于语言逻辑学的文本特征检索方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供数字经济领域基于语言逻辑学的文本特征检索方法,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作,对撰写好的方案内容进行提取,将提取到的内容载入到识别区,存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,一级分类分为方法类和结构类,一级分类方法是对步骤S1中提取到识别区的内容进行词语识别,在方案的具体内容的项目中分别统计动词与名词的数量,当动词数量大于名词数量时分为方法类,当名词数量大于动词数量时分为结构类;
S3、识别区对一级分类结果进行二级分类,得到二级分类结果,统计实践操作项目中的相同词语的使用频次,并根据词语的词性和使用频次进行分类,方法类分为目标群体、过程和结果,结构类分为部件、连接和驱动;
S4、将二级分类结果与存储区中的内容进行筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类或结构类,并在存储区中找到相同领域作用的方案作为相似方案;
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出.
实施例一
如图1,当识别到的方案是一种方法类方案,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作,对撰写好的方案内容进行提取,将提取到的内容载入到识别区,存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,分析具体内容后,一级分类总共分为两类,分为方法类和结构类,在具体内容中,识别库会对动词的数量和名词的数量进行相应的统计,依照统计的数量进行分类,动词数量大于名词数量的归类于方法类;
S3、在一级分类的基础上进行相应的二级分类,方法类分为三项,目标群体、过程和结果,识别库首先会识别从方案中提取到的实践操作内容,先进行统计,统计用到的高频词语,依照次数排列,再依据词语的表意来判断应该归属于方法类中的哪一个项目;
S4、对提取到的二级分类进行相应的筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类中的哪一项,并在存储区中找到相同领域作用的方案作为相似方案;
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出,由技术人员核实特征点,从而对原方案进行相应的修改。
实施例二
如图1,当识别到的方案是一种结构类方案时,包括以下步骤:
S1、开始识别方案内容时,识别库首先会对按照统一格式撰写的方案进行内容的提取,总共提取出三部分内容,领域作用、具体内容和实践操作;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,分析具体内容后,一级分类总共分为两类,分为方法类和结构类,在具体内容中,识别库会对动词的数量和名词的数量进行相应的统计依照统计的数量进行分类,名词数量大于动词数量的归类于结构类;
S3、在一级分类的基础上进行相应的二级分类,方法类分为三项,目标群体、过程和结果,识别库首先会识别从方案中提取到的实践操作内容,先进行统计,统计用到的高频词语,依照次数排列,再依据词语的表意来判断应该归属于结构类中的哪一个项目;
S4、对提取到的二级分类进行相应的筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于结构类中的哪一项,并在存储区中找到相同领域作用的方案作为相似方案
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出,由技术人员核实特征点,从而对原方案进行相应的修改。
综上所述,本发明采用数字经济领域基于语言逻辑学的文本特征检索方法,通过高频使用的词语表意进行相应的归类,并通过词语表意在语句中的作用来进行对比,相应的判断本方案与相似方案的重复度,从而将相似方案按照重复度的高低进行相应的输出,方便相应的技术人员快速的找到相似文件,从而对本方案进行相应的修改。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (4)

1.一种数字经济领域基于语言逻辑学的文本特征检索方法,其特征在于:包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,对撰写好的方案内容进行提取,将提取到的内容载入到所述识别区,所述存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,一级分类分为方法类和结构类,一级分类方法是对提取到识别区的内容进行词语识别,在方案的具体内容的项目中分别统计动词与名词的数量,当动词数量大于名词数量时分为方法类,当名词数量大于动词数量时分为结构类;
S3、识别区对一级分类结果进行二级分类,得到二级分类结果,二级分类方法的具体过程为:统计实践操作项目中的相同词语的使用频次,并根据词语的词性和使用频次进行分类,方法类分为目标群体、过程和结果,结构类分为部件、连接和驱动;
S4、将二级分类结果与存储区中的内容进行筛查,确定相似方案;
S5、将本方案与相似方案进行比较,计算得出重复度;
S6、将相似方案按照重复度从高到低依次输出。
2.根据权利要求1所述的数字经济领域基于语言逻辑学的文本特征检索方法,其特征在于:所述步骤S1中,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作。
3.根据权利要求2所述的数字经济领域基于语言逻辑学的文本特征检索方法,其特征在于:所述步骤S4中,筛查的过程为:在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类或结构类,并在存储区中找到相同领域作用的方案作为相似方案。
4.根据权利要求3所述的数字经济领域基于语言逻辑学的文本特征检索方法,其特征在于:所述步骤S5中的比较方法,具体过程为:设置一个对比值,在相似方案中,统计词语数量,与识别区中的高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度。
CN202310808912.0A 2023-07-03 2023-07-03 数字经济领域基于语言逻辑学的文本特征检索方法 Active CN116578673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310808912.0A CN116578673B (zh) 2023-07-03 2023-07-03 数字经济领域基于语言逻辑学的文本特征检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310808912.0A CN116578673B (zh) 2023-07-03 2023-07-03 数字经济领域基于语言逻辑学的文本特征检索方法

Publications (2)

Publication Number Publication Date
CN116578673A CN116578673A (zh) 2023-08-11
CN116578673B true CN116578673B (zh) 2024-02-09

Family

ID=87543418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310808912.0A Active CN116578673B (zh) 2023-07-03 2023-07-03 数字经济领域基于语言逻辑学的文本特征检索方法

Country Status (1)

Country Link
CN (1) CN116578673B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778817B1 (en) * 2000-09-30 2010-08-17 Intel Corporation Method and apparatus for determining text passage similarity
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN112926297A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 处理信息的方法、装置、设备和存储介质
WO2021143056A1 (zh) * 2020-01-16 2021-07-22 平安科技(深圳)有限公司 文本结论智能推荐方法、装置、计算机设备及计算机可读存储介质
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778817B1 (en) * 2000-09-30 2010-08-17 Intel Corporation Method and apparatus for determining text passage similarity
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
WO2021143056A1 (zh) * 2020-01-16 2021-07-22 平安科技(深圳)有限公司 文本结论智能推荐方法、装置、计算机设备及计算机可读存储介质
CN112926297A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 处理信息的方法、装置、设备和存储介质
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种适用于复合术语的本体概念学习方法;李江华;时鹏;胡长军;;计算机科学;20130515(第05期);174-178 *
基于句法模式识别的中文关系抽取方法研究与实现;郝博;中国优秀硕士学位论文全文数据库信息科技辑;20180215(第02期);I138-2961 *

Also Published As

Publication number Publication date
CN116578673A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN110134952A (zh) 一种错误文本拒识方法、装置及存储介质
CN110674289A (zh) 基于分词权重判断文章所属分类的方法、装置和存储介质
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN115858474A (zh) 一种基于aigc的文件整理系统
CN110781673A (zh) 文档验收方法、装置、计算机设备及存储介质
CN116578673B (zh) 数字经济领域基于语言逻辑学的文本特征检索方法
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
CN117235582A (zh) 基于电子病历的多粒度信息处理方法及装置
CN112380412A (zh) 一种基于大数据的筛选匹配信息的优化方法
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
CN110888983A (zh) 一种正负面情感分析方法、终端设备及存储介质
Li et al. An Empirical comparison of machine learning algorithms for classification of software requirements
CN115587231A (zh) 基于云计算平台的数据组合处理及快速存储调取方法
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
CN114707507A (zh) 一种基于人工智能算法的清单信息检测方法及装置
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN114003665A (zh) 数据表字段关系识别方法、装置、电子设备及存储介质
CN111737461A (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN111159410A (zh) 一种文本情感分类方法、系统、装置及存储介质
CN107402917B (zh) 藏文短文本情感分析方法及装置
CN111881668B (zh) 基于卡方统计和tf-crf改进的tf-idf计算装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant