CN109446313B - 一种基于自然语言分析的排序系统及方法 - Google Patents

一种基于自然语言分析的排序系统及方法 Download PDF

Info

Publication number
CN109446313B
CN109446313B CN201811285768.2A CN201811285768A CN109446313B CN 109446313 B CN109446313 B CN 109446313B CN 201811285768 A CN201811285768 A CN 201811285768A CN 109446313 B CN109446313 B CN 109446313B
Authority
CN
China
Prior art keywords
data
module
text data
retrieval
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811285768.2A
Other languages
English (en)
Other versions
CN109446313A (zh
Inventor
朱容宇
聂国新
杨洋
李俊霖
李翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisi Technology (Chongqing) Group Co.,Ltd.
Original Assignee
Chongqing Isoft Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Isoft Technology Co ltd filed Critical Chongqing Isoft Technology Co ltd
Priority to CN201811285768.2A priority Critical patent/CN109446313B/zh
Publication of CN109446313A publication Critical patent/CN109446313A/zh
Application granted granted Critical
Publication of CN109446313B publication Critical patent/CN109446313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自然语言分析的排序系统和方法,其中,系统包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块;数据获取模块用于获取文本数据;业务规则模块用于设置业务领域违规则词规则和业务衍生词汇;自然语言分析系统用于提取关键词和语义片段;数据索引模块用于创建索引,并将索引分片存储于数据索引库中;检索展示模块用于将检索结果排序后对进行可视化输出展示;本发明通过自然语言分析系统,对所需要分析的内容进行解析,得出相关关键词和语义片段;通过建立相关业务规则和业务衍生词汇,完善自然语句分析系统分析同类型的深度和广度。

Description

一种基于自然语言分析的排序系统及方法
技术领域
本发明属于数据检索技术领域,具体涉及一种基于自然语言分析的排序系统及方法。
背景技术
如今关键词匹配技术和模糊匹配技术是检索系统主要采用的方式,这种方式具有如下不足:1、搜索效率低。采用关键词匹配技术和模糊匹配技术进行检索,由于关键词数量太大,关键词同义词或衍生词汇众多,一方面关键词匹配并展示的数据对使用者来说相关度不高,其中会存在大量的干扰数据,很难从大量数据中有效分离出所需数据,无法满足现在对于数据发现准确性的要求;另一方面,对于关键词的其他同含义词汇或衍生词汇很难找出。2、搜索结果排序展示关联度不大。搜索结果排序展示仅仅通过关键词进行判断,排序关联度不大,导致使用者无法通过展示序列快速找到需要的数据信息,其在部分需要快速精准的检索大量数据并展示相关内容的场景中效果有限。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种基于自然语言分析的排序系统。
进一步,本发明目的还在于提供一种基于自然语言分析的排序方法。
本发明所采用的技术方案为:
一种基于自然语言分析的排序系统,包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块;所述数据获取模块用于获取用户的输入数据,并将输入数据转换为文本数据;所述文本数据为待存储文本数据或待检索文本数据;所述数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理;所述数据库用于存储经预处理后的待存储文本数据;所述业务规则模块用于设置业务领域违规则词规则和业务衍生词汇;所述数据检索预处理模块用于将待检索文本数据进行规范化;所述自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析,提取关键词和语义片段;所述数据索引模块用于创建索引,并将索引分片存储于数据索引库中;所述检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。
进一步,所述数据获取模块包括文字识别单元,该文字识别单元用于识别图片上的文字信息,将图片数据转换为文本数据。
更进一步,所述数据获取模块包括语音识别单元,该语音识别单元用于识别语音数据,将语音数据转换为文本数据。
更进一步,所述数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元;所述待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类;所述索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。
更进一步,所述自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元、词向量机单元、内容挖掘单元中的一种或几种。
更进一步,所述检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。
更进一步,本发明提供一种基于自然语言分析的排序方法,包括如下步骤:
取用户输入数据,并将输入数据转换为文本数据;
对文本数据进行预处理;
采用自然语言分析方法对经预处理后的文本数据进行关键词或语义片段的抽取;
对关键词或语义片段创建索引,并将索引分片存储于数据索引库中;或
检索索引并将数据索引库返回的检索结果输出并展示。
进一步,所述对文本数据进行预处理包括对待存储文本数据进行预处理或对待检索文本数据进行预处理。
更进一步,所述对待存储数据进行预处理包括如下步骤:
将待存储文本数据进行规范化和分类;
将经规范化和分类的待存储文本数据按行业构建索引结构;
将已构建索引结构的待存储文本数据存储于数据库中。
更进一步,所述检索索引并将数据索引库返回的检索结果输出并展示,包括如下步骤:
根据关键词或语义片段定义检索结果结构和规则;
根据关键词或语义片段在数据索引库中检索索引,得到检索结果;
根据检索结果结构和规则将检索结果规格化,并根据排序策略对检索结果进行排序;
将检索结果进行可视化展示。
本发明具有如下有益效果:
本发明通过自然语言分析系统,采用内容挖掘、篇章分析、句法分析、语义分析、分词分字、词向量机、词性标注等方式,对所需要分析的内容进行解析,得出相关关键词和语义片段。通过建立相关业务规则和业务衍生词汇,通过数据的不断分析,完善自然语句分析系统分析同类型的深度和广度,精确数据范围。
附图说明
图1为本发明方框原理图;
图2为本发明流程图;
图3为待存储数据进行预处理流程图;
图4为检索索引并将数据索引库返回的检索结果输出并展示步骤流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。
一种基于自然语言分析的排序系统,包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块。
数据获取模块用于获取用户的输入数据,并将输入数据转换为文本数据,该文本数据为待存储文本数据或待检索文本数据。
用户的输入数据可以是利用网络爬虫在互联网上抓取获得,也可以是用户在输入框内输入的数据。用户的输入数据可以是来自于互联网的图片数据、语音数据、文本数据,也可以是用户自定义的文本数据。数据获取模块获取用户的输入数据,并采用文字识别、语音识别将输入数据转换为文本数据,以利于后续处理。
具体的,数据获取模块包括文字识别单元和语音识别单元。文字识别单元用于识别图片上的文字信息,将图片数据转换为文本数据。语音识别单元用于识别语音数据,将语音数据转换为文本数据。
数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理。数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元。
待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类。规范化是将数据按比例缩放,使之落入一个小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。分类是根据文本数据的来源进行分类,可以将来自于同一网站的文本数据归为同一类,以便于对文本数据来源的追踪。索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。
数据库用于存储经预处理后的待存储文本数据。数据库包括语料库、知识库、策略库、场景库和关键词库。语料库用于存储经预处理后的待存储文本数据。知识库、策略库、场景库和关键词库内容由人工按需求进行创造及对应调整。通过建立语料库、知识库、策略库、场景库和关键词库,可为自然语言分析系统提供原始数据材料。
业务规则模块用于设置业务领域违规则词规则和业务衍生词汇。同一个词汇,可能在一个业务领域是非违规词,而在另一个业务领域是违规词,通过对每个业务领域设置违规词规则,使本系统结果具有更高的准确性。例如,教授、副教授在学校领域是非违规词,而在医院则是违规词。业务衍生词汇定义了每个业务领域的常见衍生词汇。例如,以第一为关键词,其衍生词汇可能有世界第一、西南第一、全国第一、第一家等。
数据检索预处理模块用于将待检索文本数据进行规范化,该规范化方法与待存储文本数据规范化方法相同。
自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析,提取关键词和语义片段。
自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元和词向量机单元中的一种或几种。
语义分析单元用于进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化,为文本向量化奠定基础。
内容挖掘单元用于在处理的数据中通过统计、情报检索、机器学习、过去的经验法则和模式识别等搜索隐藏于其中信息。
词性标注单元用于标注每个词的词性,即确定每个词是名词、动词、形容词或其他词性。
篇章分析单元用于用于分析文章段落,确定各个段落长度。
分词分句单元用于将分离出来的各个段落拆分为常用短语或短句。
句法分析单元用于确定句子的句法结构或者句子中词汇之间的依存关系用于向量生成模块,内置向量空间模型,用于对文本数据进行向量化,生成文本向量。
通过自然语言分析系统,采用内容挖掘、篇章分析、句法分析、语义分析、分词分字、词向量机、词性标注等方式,对所需要分析的内容进行解析,得出相关关键词和语义片段。通过建立相关业务规则和业务衍生词汇,通过数据的不断分析,完善自然语句分析系统分析同类型的深度和广度,精确数据范围。
数据索引模块用于创建索引,并将索引分片存储于数据索引库中。
检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。
检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。
检索结果结构与规则定义单元用于定义检索结果的结构和规则。例如一条存储下来的文本数据记录,可以有主题、内容、存储时间、数据大小等元信息,可以根据用户需求定义不同的展示方式展示不同的元素信息。
检索索引单元用于根据关键词或语义片段在数据索引库中检索索引,并接收返回的检索结果。
排序规则输入组件用于获取用户定义的排序规则。
排序策略集用于定义、封装排序规则算法。创建排序策略集,通过排序规则输入组件输入对应排序标准,通过搜索内容的不同,进行相关的排序,相关性、准确率高。
检索结果规格化与排序单元用于根据定义的检索结果的结构和规则将检索结果规格化,并根据排序规则算法对检索结果进行排序。排序算法如语义相关度评价值、命中关键词个数等。
检索结果输出模块用于将检索结果进行可视化展示。
进一步,本发明还提供一种基于自然语言分析的排序方法,该方法包括如下步骤:
S101、获取用户输入数据,并将输入数据转换为文本数据。
S102、对文本数据进行预处理。
S103、采用自然语言分析方法对经预处理后的文本数据进行关键词或语义片段的抽取。
S104、对关键词或语义片段创建索引,并将索引分片存储于数据索引库中;或
S105、检索索引并将数据索引库返回的检索结果输出并展示。
在步骤S101中,采用文字识别技术将图片数据转换为文本数据,采用语音识别技术将语音数据转换为文本数据。文本数据为待存储文本数据或待检索文本数据。
在步骤S102中,对文本数据进行预处理包括对待存储文本数据进行预处理或对待检索文本数据进行预处理。对待存储数据进行预处理包括如下步骤:
S201、将待存储文本数据进行规范化和分类。
S202、将经规范化和分类的待存储文本数据按行业构建索引结构。
S203、将已构建索引结构的待存储文本数据存储于数据库中。
待检索文本数据预处理为将待检索文本数据进行规范化。
在步骤S103之前,还包括设置业务领域违规词规则和业务衍生词汇的步骤。
在步骤S105中,检索索引并将数据索引库返回的检索结果输出并展示。包括如下步骤:
S301、根据关键词或语义片段定义检索结果结构和规则。
S302、根据关键词或语义片段在数据索引库中检索索引,得到检索结果。
S303、根据检索结果结构和规则将检索结果规格化,并根据排序策略对检索结果进行排序。
S304、将检索结果进行可视化展示。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (9)

1.一种基于自然语言分析的排序系统,其特征在于,包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块;
所述数据获取模块用于获取用户的输入数据,并将输入数据转换为文本数据;所述文本数据为待存储文本数据或待检索文本数据;
所述数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理;
所述数据库用于存储经预处理后的待存储文本数据;
所述业务规则模块用于设置业务领域违规词规则和业务衍生词汇;
所述数据检索预处理模块用于将待检索文本数据进行规范化;
所述自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析,提取关键词和语义片段;
所述数据索引模块用于创建索引,并将索引分片存储于数据索引库中;
所述检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。
2.根据权利要求1所述的基于自然语言分析的排序系统,其特征在于,所述数据获取模块包括文字识别单元,该文字识别单元用于识别图片上的文字信息,将图片数据转换为文本数据。
3.根据权利要求1所述的基于自然语言分析的排序系统,其特征在于,所述数据获取模块包括语音识别单元,该语音识别单元用于识别语音数据,将语音数据转换为文本数据。
4.根据权利要求1所述的基于自然语言分析的排序系统,其特征在于,所述数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元;所述待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类;所述索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。
5.根据权利要求1所述的基于自然语言分析的排序系统,其特征在于,所述自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元、词向量机单元、内容挖掘单元中的一种或几种。
6.根据权利要求1所述的基于自然语言分析的排序系统,其特征在于,所述检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。
7.基于自然语言分析的排序方法,其特征在于,包括如下步骤:
取用户输入数据,并将输入数据转换为文本数据;
对文本数据进行预处理;
采用自然语言分析方法对经预处理后的文本数据进行关键词或语义片段的抽取;
对关键词或语义片段创建索引,并将索引分片存储于数据索引库中;或
根据关键词或语义片段定义检索结果结构和规则;
根据关键词或语义片段在数据索引库中检索索引,得到检索结果;
根据检索结果结构和规则将检索结果规格化,并根据排序策略对检索结果进行排序;
将检索结果进行可视化展示。
8.根据权利要求7所述的基于自然语言分析的排序方法,其特征在于,所述对文本数据进行预处理包括对待存储文本数据进行预处理或对待检索文本数据进行预处理。
9.根据权利要求8所述的基于自然语言分析的排序方法,其特征在于,所述对待存储数据进行预处理包括如下步骤:
将待存储文本数据进行规范化和分类;
将经规范化和分类的待存储文本数据按行业构建索引结构;
将已构建索引结构的待存储文本数据存储于数据库中。
CN201811285768.2A 2018-10-31 2018-10-31 一种基于自然语言分析的排序系统及方法 Active CN109446313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811285768.2A CN109446313B (zh) 2018-10-31 2018-10-31 一种基于自然语言分析的排序系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285768.2A CN109446313B (zh) 2018-10-31 2018-10-31 一种基于自然语言分析的排序系统及方法

Publications (2)

Publication Number Publication Date
CN109446313A CN109446313A (zh) 2019-03-08
CN109446313B true CN109446313B (zh) 2020-10-02

Family

ID=65550062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285768.2A Active CN109446313B (zh) 2018-10-31 2018-10-31 一种基于自然语言分析的排序系统及方法

Country Status (1)

Country Link
CN (1) CN109446313B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991179A (zh) * 2019-11-13 2020-04-10 国网山东省电力公司临沂供电公司 基于电力专业术语的语义分析方法
CN111444727A (zh) * 2020-04-01 2020-07-24 神州数码融信软件有限公司 一种业务规则解析方法
CN112445830B (zh) * 2020-11-26 2024-05-14 湖南智慧政务区块链科技有限公司 一种基于区块链技术的数据分析系统
CN112732869B (zh) * 2020-12-31 2024-03-19 的卢技术有限公司 车载语音信息管理方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101582073A (zh) * 2008-12-31 2009-11-18 北京中机科海科技发展有限公司 一种基于领域本体的智能检索系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012186892A (ja) * 2011-03-03 2012-09-27 Toshiba Corp 系統事象解析画面作成支援装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101582073A (zh) * 2008-12-31 2009-11-18 北京中机科海科技发展有限公司 一种基于领域本体的智能检索系统及方法

Also Published As

Publication number Publication date
CN109446313A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN102880645B (zh) 语义化的智能搜索方法
US20080052262A1 (en) Method for personalized named entity recognition
US20220004545A1 (en) Method of searching patent documents
CN108038099B (zh) 基于词聚类的低频关键词识别方法
US20210350125A1 (en) System for searching natural language documents
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Somprasertsri et al. Automatic product feature extraction from online product reviews using maximum entropy with lexical and syntactic features
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN111597349A (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN111881695A (zh) 一种审计知识的检索方法及装置
Sariki et al. A book recommendation system based on named entities
Lai et al. An unsupervised approach to discover media frames
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Thakkar et al. Test model for text categorization and text summarization
Bruggmann et al. Spatializing a digital text archive about history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No.5-39, 148-50, Taoyuan Road, Nan'an District, Chongqing 400060

Patentee after: Aisi Technology (Chongqing) Group Co.,Ltd.

Address before: No.5-39, 148-50, Taoyuan Road, Nan'an District, Chongqing 400060

Patentee before: CHONGQING ISOFT TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A sort system and method based on natural language analysis

Effective date of registration: 20220318

Granted publication date: 20201002

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: Aisi Technology (Chongqing) Group Co.,Ltd.

Registration number: Y2022500000012

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230406

Granted publication date: 20201002

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: Aisi Technology (Chongqing) Group Co.,Ltd.

Registration number: Y2022500000012

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Sort System and Method Based on Natural Language Analysis

Effective date of registration: 20230411

Granted publication date: 20201002

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: Aisi Technology (Chongqing) Group Co.,Ltd.

Registration number: Y2023500000026

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20201002

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: Aisi Technology (Chongqing) Group Co.,Ltd.

Registration number: Y2023500000026

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Sorting System and Method Based on Natural Language Analysis

Granted publication date: 20201002

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: Aisi Technology (Chongqing) Group Co.,Ltd.

Registration number: Y2024500000030