CN117609476B - 一种基于人工智能的公共服务数据分析系统 - Google Patents
一种基于人工智能的公共服务数据分析系统 Download PDFInfo
- Publication number
- CN117609476B CN117609476B CN202410083878.XA CN202410083878A CN117609476B CN 117609476 B CN117609476 B CN 117609476B CN 202410083878 A CN202410083878 A CN 202410083878A CN 117609476 B CN117609476 B CN 117609476B
- Authority
- CN
- China
- Prior art keywords
- text
- historical
- question
- semantic
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 25
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 93
- 230000000750 progressive effect Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 54
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000014509 gene expression Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本语言数据处理技术领域,具体涉及一种基于人工智能的公共服务数据分析系统。该系统统计公共服务历史数据库中的历史问答文本,获得历史问题文本的语义特征向量。根据时序相邻的两个历史问题文本之间语义特征向量的相似度获得每个历史答案文本的语义区段。根据语义区段的时序位置和区段内历史问题文本的递进关系获得问题主旨可能性,进而筛选出参考区段。基于参考区段获得同种历史答案文本对应的文本聚簇。将实时问题文本与文本聚簇进行匹配,获得推荐答案文本。本发明利用人工智能大数据分析问题文本之间的语义递进关系,获得准确的推荐答案,提高了公共服务效率。
Description
技术领域
本发明涉及文本语言数据处理技术领域,具体涉及一种基于人工智能的公共服务数据分析系统。
背景技术
随着计算机技术的发展,政策咨询、机构咨询等公共服务演变为AI驱动的虚拟助手,市民可通过公共服务相关的APP在线与虚拟助手进行问答,虚拟助手可通过对市民对话或询问产生文本数据进行分析,进而生成答案推荐。因为不同类型不同方向的公共服务内容较多,并且此类人工智能助手不适用与成本较高更为只能的AI模型,进而导致在实际使用过程中市民得到自己想要的问题答案过程的时间较长,或者会产生问题与答案不匹配的现象,降低了服务效率,影响市民体验。
发明内容
为了解决当前公共服务过程中反馈答案过程效率交底的技术问题,本发明的目的在于提供一种基于人工智能的公共服务数据分析系统,所采用的技术方案具体如下:
本发明提出了一种基于人工智能的公共服务数据分析系统,所述系统包括:公共服务数据获取模块、服务数据语义区段划分模块、文本聚簇获取模块和答案推荐模块;
公共服务数据获取模块用于,统计公共服务历史数据库中的所有历史问答文本,每个所述历史问答文本包括历史答案文本及其对应的历史问题文本,获得所述历史问题文本中的语义特征向量;
服务数据语义区段划分模块用于,在每个历史答案文本对应的历史问题文本中,获取时序上相邻的两个所述历史问题文本之间语义特征向量的第一相似度;根据所有相邻的所述历史问题文本之间的第一相似度将所述历史问题文本划分为多个语义区段;
文本聚簇获取模块用于,在每个历史答案文本对应的历史问题文本中,根据所述语义区段在所述历史问题文本中的时序位置和所述语义区段内所有相邻所述历史问题文本之间的所述第一相似度,获得每个所述语义区段的问题主旨可能性;根据所述问题主旨可能性筛选出每个历史答案文本对应的参考区段,获得同种历史答案文本中每个历史答案文本之间所述参考区段的区段相似性;根据所述区段相似性对同种历史答案文本的所述历史问答文本进行聚类,获得文本聚簇;
答案推荐模块用于,根据实时问题文本的语义特征向量与所述文本聚簇中的语义特征向量,将所述实时问题文本与所述文本聚簇匹配,将匹配的所述文本聚簇对应的历史答案文本作为所述实时问题文本的推荐答案文本。
进一步地,所述语义特征向量的获取方法包括:
获得文本数据中每个关键词的多维向量,将每个关键词的多维向量降维,获得关键词特征向量,每条文本数据中的关键词特征向量组成所述语义特征向量。
进一步地,所述第一相似度的获取方法包括:
在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合,将每个关键词匹配组合中两个关键词特征向量之间的欧氏距离作为所述关键词匹配组合的子匹配差异;将所有关键词匹配组合的所有子匹配差异累加,获得整体匹配差异;
获得语义特征向量之间的关键词数量差异,将所述关键词数量差异和所述整体匹配差异相乘后进行负相关映射并归一化,获得对应语义特征向量之间的第一相似度。
进一步地,所述语义区段的获取方法包括:
若相邻的两个所述历史问题文本之间语义特征向量的第一相似度大于预设相似度阈值,则将对应两个所述历史问题文本作为统一语义区段中的历史问题文本,遍历每个历史答案文本对应的所有历史问题文本,获得所述语义区段。
进一步地,所述问题主旨可能性的获取方法包括:
在每个历史答案文本对应的所有语义区段按照时序位置标记序号,将所述语义区段的所述序号与语义区段的数量的比值作为位置特征值;将每个语义区段中所有相邻所述历史问题文本之间的第一相似度累乘,获得文本统一性;将所述文本统一性与所述位置特征值相乘,获得对应所述语义区段的问题主旨可能性。
进一步地,所述区段相似性的获取方法包括:
根据两个参考区段之间历史问题文本之间的第一相似性和参考区段之间文本数量的差异获得初始相似性;将两个参考区段的所述问题主旨可能性相加后,获得调整权重,将所述调整权重与所述初始相似性相乘,获得同种历史答案文本中每个历史答案文本之间所述参考区段的区段相似性。
进一步地,所述初始相似性的获取方法包括:
根据初始相似性公司获得两个所述语义区段之间的初始相似性,所述初始相似性公式包括:
;其中,/>为参考区段/>和参考区段/>之间的初始相似性,/>为参考区段/>中的历史问题文本的数量,/>为参考区段/>的历史问题文本的数量,/>为参考区段/>中第/>个历史问题文本/>与参考区段/>中第/>个历史问题文本/>之间的语义特征向量的第一相似度,/>为参考区段/>对应的历史问答文本中的文本数量,/>为参考区段/>对应的历史问答文本中的文本数量。
进一步地,所述将所述实时问题文本与所述文本聚簇匹配的方法包括:
将所述文本聚簇中的所述语义特征向量组合,获得所述文本聚簇的递进逻辑特征曲线,将所述实时问题文本的语义特征向量在所述递进逻辑特征曲线上滑动,每次滑动过程计算所述实时问题文本的语义特征向量与递进逻辑特征曲线对应数据的第二相似度,将所述第二相似度求平均,获得所述实时问题文本与所述文本聚簇之间的匹配度,根据匹配度选择与所述实时问题文本匹配的所述文本聚簇。
进一步地,采用DTW算法在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合。
进一步地,基于所述区段相似性,利用K-means算法对所述历史问答文本进行聚类,利用手肘法获得聚类过程中的K值,获得所述文本聚簇。
本发明具有如下有益效果:
本发明实施例在公共服务原始问答模型的基础上,统计公共服务历史数据库中的所有历史问答文本。考虑到在一次问答过程中,所涉及到的问题文本较多,数据冗余程度较大,因此提取出历史问题文本的语义区段,在后续过程中针对每个语义区段进行分析,根据问题主旨可能性提取出表示主旨语义特征的参考区段。问题主旨可能性考虑到了历史问题文本的时序位置和区段内历史问题文本之间的相似情况,因此能够有效表征对应语义区段在该次问答过程中表述主旨语义的程度。基于参考区段即可对同种历史答案文本的历史问答文本进行聚类,获得文本聚簇,即一种答案对应多个文本聚簇,文本聚簇可体现出一种语义特征,即在该语义特征下的语义对应的答案即为该文本聚簇对应的历史答案文本,因此可根据实时问题文本的语义特征向量与文本聚簇中的语义特征向量将实时问题文本和文本聚簇匹配,根据匹配结果获得实时问题文本对应的准确推荐答案文本。本发明基于人工智能大数据,在不改变原始问答模型的基础下,通过统计历史数据库中的历史问答文本优化答案与问题的匹配过程,使得能够快速准确的确定出实时问题文本对应的推荐答案,提高了公共服务对于市民的服务效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的公共服务数据分析系统框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的公共服务数据分析系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明实施例涉及到的场景为:市民在利用公共服务APP咨询相关问题的过程中通过输入相关问题,人工智能助手通过分析用户问题中的语义信息,给出推荐答案并询问是否满足用户需求,若满足则停止推荐,视为一次问答过程结束;若不满足则令用户重新输入问题或在上一个问题的基础上要求用户输入新的文本,进而重新推荐答案,直至满足用户需求。在该场景下,因为用户关键词描述不准确、相关答案较多等问题,导致人工智能助手会耗费更长的时间进行对应答案的文本,降低了服务效率。
下面结合附图具体的说明本发明所提供的一种基于人工智能的公共服务数据分析系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的公共服务数据分析系统框图,该系统包括:公共服务数据获取模块101、服务数据语义区段划分模块102、文本聚簇获取模块103和答案推荐模块104。
公共服务数据获取模块101用于在公共服务历史数据库中统计出所有历史问答文本,需要说明的是,一次问答的过程对应一个历史问答文本,一个历史问答文本由一个历史答案文本和多个历史问题文本组成。因为本发明实施例在后续过程中需要分析不同表述下的问题文本对应的答案,因此需要获得历史问题文本中的语义特征向量,通过语义特征向量表征对应历史问题文本的语义。
优选地,在本发明一个实施例中,考虑到一个问题文本中包含多个关键词和其他连接词,关键词例如公积金、住房等词语,连接词例如和、的、但是等词语,对于一个问题文本而言,关键词才能体现出该文本的语义特征,因此为了提取出问题文本中的语义特征向量,需要获取对应文本中的关键词信息,获得文本数据中每个关键词的多维向量,为了便于数据处理将每个关键词的多维向量进行降维,获得关键词特征向量,每条文本数据中的关键词特征向量组成语义特征向量。
在本发明一个实施例中采用TextRank算法提取文本数据中的关键词,获得关键词序列,因为每个句子常见的组成部分包括主、谓、宾、定、状、表以及独立的助词部分,并且对于相同词汇在不同表述方式下的语义不同,因此还可结合《现代汉语语义词典》数据库中通过搜素和匹配获得每个关键词的词性,便于关键词特征向量的提取。关键词的多维向量根据word2vec算法进行获得,对统计的所有问题文本中标注出的关键词作为词库,对每一个关键词得到一个多维向量,将多维向量转换至二维空间后,即可获得每个关键词的关键词特征向量。在本发明一个实施例中,考虑到某些市民用户的问题文本会产生倒装句,因此还可以利用句法分析工具中Stanford Parser的功能来分析任意一个问题文本中任意一个句子中的主谓宾关系,并识别出倒装句,将其转换为常规表达后再进行关键词及其特征向量的提取。需要说明的是,上述所提及的关键词提取算法和向量获取算法均为本领域技术人员熟知的技术手段,在本发明其他实施例中也可采用其他自然语言处理算法进行实施,在此不做限定及赘述。
因为公共服务的人工智能助手如果判定未达到用户需求,则会建议市民用户修改问题描述继续推荐答案,直至满足需求。所以在这个过程中问题文本之间存在一定的递进关系和相似性,但是因为表达能力的限制,用户的表达出的问题文本中仅有部分文本才能体现出主旨,而其他文本可能与实际需求具有较大的差异,因此对于一个历史问答文本中,需要提取出历史问题文本中表达主旨的文本,进而执行后续的数据分析过程。
为了提取表达主旨的文本首先需要利用服务数据语义区段划分模块102将一个历史问答文本中的大量历史问题文本划分为多个语义区段,因为在问答过程中相邻两个问题之间可能存在递进关系,若存在递进关系则说明两个问题可能表达同一种意思,即两个问题文本在同一个语义区段中,因此在每个历史答案文本对应的历史问题文本中,获取时序上相邻的两个历史问题文本之间语义特征向量的第一相似度,根据第一相似度即可划分出多个语义区段,不同语义区段具有不同的语义特征,一个语义区段内的问题文本具有相似的语义特征。
优选地,在本发明一个实施例中考虑到问题文本中关键词信息较为重要,参考性较强,因此第一相似度的获取方法包括:
在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合,将每个关键词匹配组合中两个关键词特征向量之间的欧氏距离作为所述关键词匹配组合的子匹配差异;将所有关键词匹配组合的所有子匹配差异累加,获得整体匹配差异。
获得语义特征向量之间的关键词数量差异,将所述关键词数量差异和所述整体匹配差异相乘后进行负相关映射并归一化,获得对应语义特征向量之间的第一相似度。
在本发明一个实施例中,第一相似度的计算公式为:
;
其中,为第/>个历史问题文本的语义特征向量与第/>个历史问题文本之间的第一相似度,/>为以自然常数为底数的指数函数,/>为第/>个历史问题文本中的关键词数量,/>为第/>个历史问题文本中的关键词数量,/>为关键词匹配组合的数量,为第/>个关键词匹配组合中的子匹配差异。
在第一相似度的计算公式中,通过自然常数为底数的指数函数实现负相关映射及归一化,即两个语义特征向量对应的历史问题文本之间关键词数量差异越大说明两个历史问题文本相似度越低;关键词匹配组合之间子匹配差异越大说明两个历史问题文本之间的关键词语义差别越大,则第一相似度越低。
需要说明的是,第一相似度公式不仅可以计算相邻两个历史问题文本之间语义特征向量的相似度,还可以计算任意两个语义特征向量之间的相似度。欧氏距离的获取方法为本领域技术人员熟知的技术手段,同样不再赘述。
优选地,因为可能存在语义特征向量之间数据量不统一的情况,因此采用DTW算法在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合。DTW算法为本领域技术人员熟知的技术手段,可将语义特征向量看做是一个集合,集合中的每个元素为关键词特征向量,即可获得元素之间的匹配关系,具体算法内容不再赘述。
若第一相似度较大,则说明两个历史问题文本之间相同或相似的词汇出现的越大,文本的结构越相似,两个文本表现同一种语义的可能性越大,因此可根据所有相邻的历史问题文本之间的第一相似度将历史问题文本划分为多个语义区段。
优选地,在本发明一个实施例中语义区段的获取方法包括:
若相邻的两个历史问题文本之间语义特征向量的第一相似度大于预设相似度阈值,则将对应两个历史问题文本作为统一语义区段中的历史问题文本,遍历每个历史答案文本对应的所有历史问题文本,获得语义区段。在本发明实施例中,相似度阈值设置为0.7。
在一个语义区段中的历史问题文本具有相似的语义特征,并且语义区段内的历史问题文本可视为呈现一种语义递进的关系的,即越靠后的问题文本越属于进一步描述问题的文本。
文本聚簇获取模块103用于在每个历史答案文本对应的历史问题文本中,根据语义区段在历史问题文本中的时序位置和语义区段内各个历史问题文本之间的第一相似度,获得每个语义区段的问题主旨可能性;根据问题主旨可能性获得每个历史答案文本对应的参考区段,获得同种历史答案文本中每个历史答案文本之间参考区段的区段相似性;根据区段相似性对同种历史答案文本的历史问答文本进行聚类,获得文本聚簇。
因为一个历史回答文本仅对应一个历史答案文本,在整个问答的过程中,时序上越靠后的内容越符合用户主旨,因此文本聚簇获取模块103可将语义区段在历史问题文本中的时序位置作为表征语义区段问题主旨可能性的因素之一;进一步考虑到语义区段内的问题文本之间存在递进关系,并且同样具有时序上越靠后说明越符合问题主旨的特点,因此还需要分析语义区段内所有相邻历史问题文本之间的第一相似度,第一相似度越大说明对应语义区段内的语义递进关系越强,因此文本聚簇获取模块103同时考虑到了语义区段的时序位置和内部历史问题文本的相似情况,获得问题主旨可能性。问题主旨可能性越大说明对应语义区段越能够表征当前历史问答文本中用户的问题主旨,因此可根据问题主旨可能性获得每个历史答案文本对应的参考区段,即利用参考区段作为一个历史问答文本的代表数据。
优选地,在本发明一个实施例中,问题主旨可能性的获取方法包括:
在每个历史答案文本对应的所有语义区段按照时序位置标记序号,将语义区段的序号与语义区段的数量的比值作为位置特征值;将每个语义区段中所有相邻历史问题文本之间的第一相似度累乘,获得文本统一性;将文本统一性与位置特征值相乘,获得对应语义区段的问题主旨可能性。即问题主旨可能性用公式表示为:;其中/>为每个历史答案文本对应的序号为/>的第/>个语义区段的问题主旨可能性,/>为对应历史答案文本对应的语义区段数量,/>为第/>个语义区段中相邻历史问题文本的数量,/>为第/>对相邻历史问题文本之间语义特征向量的第一相似度。
在本发明一个实施例中,选择问题主旨可能性最大的语义区段作为对应历史答案文本的参考区段。因为不同市民用户表达能力不同,因此相同的历史答案文本会对应多组不同的历史问题文本,因此将同种历史答案文本共同分析,获得同种历史答案文本中每个历史答案文本之间参考区段的区段相似性,根据区段相似性对同种历史答案文本的历史问答文本进行聚类,获得文本聚簇,即通过聚类的方式获得了一种答案的不同表达,每个文本聚簇表征一种表达能力的语义,通过获得文本聚簇能够方便后续对于实时问题文本的答案推荐。
优选地,在本发明一个实施例中,区段相似性的获取方法包括:
根据两个参考区段之间历史问题文本之间的第一相似性和参考区段之间文本数量的差异获得初始相似性。将两个参考区段的问题主旨可能性相加后,获得调整权重,将调整权重与初始相似性相乘,获得同种历史答案文本中每个历史答案文本之间参考区段的区段相似性。即两个参考区段之间的问题主旨可能性越大,对应的调整权重越大,说明两个参考区段中的历史问题文本表征同一个历史答案文本的主旨,则区段相似性越大。
优选地,在本发明一个实施例中初始相似性的获取方法包括:
根据初始相似性公司获得两个语义区段之间的初始相似性,初始相似性公式包括:
;其中,/>为参考区段/>和参考区段/>之间的初始相似性,/>为参考区段/>中的历史问题文本的数量,/>为参考区段/>的历史问题文本的数量,/>为参考区段/>中第/>个历史问题文本/>与参考区段/>中第/>个历史问题文本/>之间的语义特征向量的第一相似度,/>为参考区段/>对应的历史问答文本中的文本数量,/>为参考区段/>对应的历史问答文本中的文本数量。
在初始相似性公式中,分子为两个参考区段之间历史问题文本的语义特征向量的第一相似度累加和,分子越大说明两个区段之间的历史问题文本均为较相似的问题文本,即两个参考区段中的历史问题文本表达能力相同,则初始相似性越大;分母中为对应的历史问答文本中的文本数量差异,文本数量差异越大说明两个历史问答文本的表达能力差距越大,存在一个市民用户利用较少的问题得到了满意的答案,另一个市民用户利用较多的问题才能够得到相同的答案,因此文本数量差异越大说明初始相似性越小;/>为两个参考区段之间的历史问题文本数量差异,与/>相似地,/>越大说明在两个参考区段之间表达能力差距越大,即/>是从整体分析的表达能力差异,/>是从局部分析的表达能力差异。其中分母的0.1是防止分母为0设置的系数。
优选地,在本发明一个实施例中,基于区段相似性,利用K-means算法对历史问答文本进行聚类,利用手肘法获得聚类过程中的K值,获得文本聚簇。需要说明的是,K-means算法和手肘法均为本领域技术人员熟知的技术手段,在此不做赘述。
经过上述模块的处理后,每种历史答案文本均对应多个文本聚簇,每个文本聚簇表征了一种问题的表达方式,因此答案推荐模块104可根据实时问题文本的语义特征向量与所述文本聚簇中的语义特征向量,将所述实时问题文本与所述文本聚簇匹配,将匹配的所述文本聚簇对应的历史答案文本作为所述实时问题文本的推荐答案文本。
优选地,在本发明一个实施例中,将实时问题文本与文本聚簇匹配的方法包括:
将文本聚簇中的语义特征向量组合,获得文本聚簇的递进逻辑特征曲线,将实时问题文本的语义特征向量在递进逻辑特征曲线上滑动,每次滑动过程计算实时问题文本的语义特征向量与递进逻辑特征曲线对应数据的第二相似度,将第二相似度求平均,获得实时问题文本与文本聚簇之间的匹配度,根据匹配度选择与实时问题文本匹配的文本聚簇。需要说明的是,在本发明一个实施例中,第二相似度可根据DTW距离获得,在本发明其他实施例中也可通过余弦相似度、欧氏距离等进行获取,在此不做赘述及限定。
在本发明一个实施例中,为了方便递进逻辑特征曲线的表达,将每个语义特征向量中的关键词特征向量求平均,获得关键词平均向量,然后将文本聚簇中的关键词平均向量首尾相连获得递进逻辑特征曲线。在本发明其他实施例中,也可选择其他语义特征向量的组合和设置方法,在此不做限定及赘述。
需要说明的是,公共服务后台人员可根据具体需求设置答案推荐的数量,在本发明一个实施例中将答案推荐的数量设置为3,因为一种历史答案文本对应多个文本聚簇,因此需要从匹配度最大的文本聚簇按照匹配度降序的顺序进行挑选,直至挑选出三种历史答案文本作为推荐答案文本。
需要说明的是,因为公共服务内容会不断发生变化,因此需要定期更新公共服务历史数据库,并且更新文本聚簇,具体更新周期可根据实际情况进行具体设置,在此不做限定及赘述。
综上所述,本发明实施例统计公共服务历史数据库中的历史问答文本,获得历史问题文本的语义特征向量。根据时序相邻的两个历史问题文本之间语义特征向量的相似度获得每个历史答案文本的语义区段。根据语义区段的时序位置和区段内历史问题文本的递进关系获得问题主旨可能性,进而筛选出参考区段。基于参考区段获得同种历史答案文本对应的文本聚簇。将实时问题文本与文本聚簇进行匹配,获得推荐答案文本。本发明利用人工智能大数据分析问题文本之间的语义递进关系,获得准确的推荐答案,提高了公共服务效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种基于人工智能的公共服务数据分析系统,其特征在于,所述系统包括:公共服务数据获取模块、服务数据语义区段划分模块、文本聚簇获取模块和答案推荐模块;
公共服务数据获取模块用于,统计公共服务历史数据库中的所有历史问答文本,每个所述历史问答文本包括历史答案文本及其对应的历史问题文本,获得所述历史问题文本中的语义特征向量;
服务数据语义区段划分模块用于,在每个历史答案文本对应的历史问题文本中,获取时序上相邻的两个所述历史问题文本之间语义特征向量的第一相似度;根据所有相邻的所述历史问题文本之间的第一相似度将所述历史问题文本划分为多个语义区段;
文本聚簇获取模块用于,在每个历史答案文本对应的历史问题文本中,根据所述语义区段在所述历史问题文本中的时序位置和所述语义区段内所有相邻所述历史问题文本之间的所述第一相似度,获得每个所述语义区段的问题主旨可能性;根据所述问题主旨可能性筛选出每个历史答案文本对应的参考区段,获得同种历史答案文本中每个历史答案文本之间所述参考区段的区段相似性;根据所述区段相似性对同种历史答案文本的所述历史问答文本进行聚类,获得文本聚簇;
答案推荐模块用于,根据实时问题文本的语义特征向量与所述文本聚簇中的语义特征向量,将所述实时问题文本与所述文本聚簇匹配,将匹配的所述文本聚簇对应的历史答案文本作为所述实时问题文本的推荐答案文本。
2.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述语义特征向量的获取方法包括:
获得文本数据中每个关键词的多维向量,将每个关键词的多维向量降维,获得关键词特征向量,每条文本数据中的关键词特征向量组成所述语义特征向量。
3.根据权利要求2所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述第一相似度的获取方法包括:
在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合,将每个关键词匹配组合中两个关键词特征向量之间的欧氏距离作为所述关键词匹配组合的子匹配差异;将所有关键词匹配组合的所有子匹配差异累加,获得整体匹配差异;
获得语义特征向量之间的关键词数量差异,将所述关键词数量差异和所述整体匹配差异相乘后进行负相关映射并归一化,获得对应语义特征向量之间的第一相似度。
4.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述语义区段的获取方法包括:
若相邻的两个所述历史问题文本之间语义特征向量的第一相似度大于预设相似度阈值,则将对应两个所述历史问题文本作为统一语义区段中的历史问题文本,遍历每个历史答案文本对应的所有历史问题文本,获得所述语义区段。
5.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述问题主旨可能性的获取方法包括:
在每个历史答案文本对应的所有语义区段按照时序位置标记序号,将所述语义区段的所述序号与语义区段的数量的比值作为位置特征值;将每个语义区段中所有相邻所述历史问题文本之间的第一相似度累乘,获得文本统一性;将所述文本统一性与所述位置特征值相乘,获得对应所述语义区段的问题主旨可能性。
6.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述区段相似性的获取方法包括:
根据两个参考区段之间历史问题文本之间的第一相似性和参考区段之间文本数量的差异获得初始相似性;将两个参考区段的所述问题主旨可能性相加后,获得调整权重,将所述调整权重与所述初始相似性相乘,获得同种历史答案文本中每个历史答案文本之间所述参考区段的区段相似性。
7.根据权利要求6所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述初始相似性的获取方法包括:
根据初始相似性公式获得两个所述语义区段之间的初始相似性,所述初始相似性公式包括:
;其中,/>为参考区段/>和参考区段/>之间的初始相似性,/>为参考区段/>中的历史问题文本的数量,/>为参考区段/>的历史问题文本的数量,/>为参考区段中第/>个历史问题文本/>与参考区段/>中第/>个历史问题文本/>之间的语义特征向量的第一相似度,/>为参考区段/>对应的历史问答文本中的文本数量,/>为参考区段/>对应的历史问答文本中的文本数量。
8.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,所述将所述实时问题文本与所述文本聚簇匹配的方法包括:
将所述文本聚簇中的所述语义特征向量组合,获得所述文本聚簇的递进逻辑特征曲线,将所述实时问题文本的语义特征向量在所述递进逻辑特征曲线上滑动,每次滑动过程计算所述实时问题文本的语义特征向量与递进逻辑特征曲线对应数据的第二相似度,将所述第二相似度求平均,获得所述实时问题文本与所述文本聚簇之间的匹配度,根据匹配度选择与所述实时问题文本匹配的所述文本聚簇。
9.根据权利要求3所述的一种基于人工智能的公共服务数据分析系统,其特征在于,采用DTW算法在所述语义特征向量之间,将所述关键词特征向量互相匹配,获得关键词匹配组合。
10.根据权利要求1所述的一种基于人工智能的公共服务数据分析系统,其特征在于,基于所述区段相似性,利用K-means算法对所述历史问答文本进行聚类,利用手肘法获得聚类过程中的K值,获得所述文本聚簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410083878.XA CN117609476B (zh) | 2024-01-19 | 2024-01-19 | 一种基于人工智能的公共服务数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410083878.XA CN117609476B (zh) | 2024-01-19 | 2024-01-19 | 一种基于人工智能的公共服务数据分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117609476A CN117609476A (zh) | 2024-02-27 |
CN117609476B true CN117609476B (zh) | 2024-04-12 |
Family
ID=89951994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410083878.XA Active CN117609476B (zh) | 2024-01-19 | 2024-01-19 | 一种基于人工智能的公共服务数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609476B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800205A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
CN116775815A (zh) * | 2022-03-07 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 对话数据的处理方法、装置、电子设备及存储介质 |
CN117407515A (zh) * | 2023-12-15 | 2024-01-16 | 湖南三湘银行股份有限公司 | 一种基于人工智能的答题系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
-
2024
- 2024-01-19 CN CN202410083878.XA patent/CN117609476B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800205A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
CN116775815A (zh) * | 2022-03-07 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 对话数据的处理方法、装置、电子设备及存储介质 |
CN117407515A (zh) * | 2023-12-15 | 2024-01-16 | 湖南三湘银行股份有限公司 | 一种基于人工智能的答题系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117609476A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052583B (zh) | 电商本体构建方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN110347796A (zh) | 向量语义张量空间下的短文本相似度计算方法 | |
CN112052318A (zh) | 一种语义识别方法、装置、计算机设备和存储介质 | |
CN111966810A (zh) | 一种用于问答系统的问答对排序方法 | |
Medelyan et al. | Thesaurus-based index term extraction for agricultural documents | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN111339424B (zh) | 基于关键词进行搜索的方法、装置、设备及存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
Udupa et al. | An Exploratory Analysis of GSDMM and BERTopic on Short Text Topic Modelling | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
Mansour et al. | Text vectorization method based on concept mining using clustering techniques | |
CN113656540A (zh) | 基于nl2sql的bi查询方法、装置、设备及介质 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN117609476B (zh) | 一种基于人工智能的公共服务数据分析系统 | |
CN117633148A (zh) | 一种基于融合多策略对比学习的医学术语标准化方法 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |