CN116069938B - 一种文本关联性分析方法 - Google Patents
一种文本关联性分析方法 Download PDFInfo
- Publication number
- CN116069938B CN116069938B CN202310354256.1A CN202310354256A CN116069938B CN 116069938 B CN116069938 B CN 116069938B CN 202310354256 A CN202310354256 A CN 202310354256A CN 116069938 B CN116069938 B CN 116069938B
- Authority
- CN
- China
- Prior art keywords
- word
- analysis
- words
- value
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 288
- 230000005856 abnormality Effects 0.000 claims abstract description 47
- 238000012098 association analyses Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 34
- 238000004519 manufacturing process Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 230000003247 decreasing effect Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 83
- 230000008569 process Effects 0.000 description 9
- 238000012827 research and development Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本关联性分析方法,包括:在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数;提取第一目标分析语句中的第一待分析词语,第一待分析词语包括第一数量词;提取第二目标分析语句中的第二待分析词语,第二待分析词语包括第二数量词;关联性分析插件根据所述关联分析函数、第一数量词生成至少一个标准关联区间,若所述第二数量词位于所述标准关联区间内,则输出正常关联提醒信息;若第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本关联性分析方法。
背景技术
在每个主体的生产、生活过程中,都会产生各种各样的文本,文本内会具有不同种类、不同维度的信息。现有技术中,可以根据文本内词语的词性对文本进行关联性的分析,但是并无法根据文本内相对应维度的数量词进行分析。
例如花名册、年度纳税申报表、合同书等等,都会具有多个数量词,例如100万元、100人等等。根据不同文本内的数量词可以实现对相应文本内、相应维度的信息进行分析,判断数量词之间的关联性是否符合事实、规定。现有技术中,并无法自动化、智能化的对文本内相关联的数量词进行分析,导致分析效率较低。
发明内容
本发明实施例提供的一种文本关联性分析方法,能够根据基于关联性分析插件对目标分析文本中具有关联性的词语、数量值进行分析,进而判断目标分析文本是否为准确、满足要求,实现智能化、自动化的文本关联性分析,降低人工劳动力,提高分析效率。
本发明实施例的第一方面,提供一种文本关联性分析方法,包括:
在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数;
关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句,提取所述第一目标分析语句中的第一待分析词语,所述第一待分析词语包括第一数量词,所述第一目标分析语句中具有与第一关联词语相同或相对应的待分析词语;
关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句,提取所述第二目标分析语句中的第二待分析词语,所述第二待分析词语包括第二数量词,所述第二目标分析语句中具有与第二关联词语相同或相对应的待分析词语;
若所述关联分析函数的函数类型为第一函数,则根据所述第一数量词确定所述第一函数的有限的标准关联区间,所述第一函数中具有标准关联区间的最大值和/或最小值;
若所述关联分析函数的函数类型为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值;
若所述第二数量词位于相对应有限的标准关联区间、比例关系的标准关联区间,则输出正常关联提醒信息;
若所述第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
可选地,在第一方面的一种可能实现方式中,所述在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数,包括:
确定所述关联性分析数据中目标分析文本的分析维度,根据目标分析文本的分析维度生成与关联性分析插件对应的关联分析表;
根据分析维度在关联分析表中生成相应的维度行,每个维度行对应一个分析维度,在所述维度行中创建第一词语格、第二词语格以及分析函数格;
将每个分析维度所对应的预设变量词语作为第一关联词语,将所述第一关联词语填充至所述第一词语格内;
将每个分析维度所对应的预设验证词语作为第二关联词语,将所述第二关联词语填充至所述第二词语格内;
调取与所述分析维度所对应的关联分析函数,将所述关联分析函数填充至所述分析函数格内。
可选地,在第一方面的一种可能实现方式中,所述关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句,提取所述第一目标分析语句中的第一待分析词语,所述第一待分析词语包括第一数量词,包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句;
在多个目标分析语句中确定与第一关联词语对应的第一目标分析语句;
确定所述第一目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第一待分析词语;
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语。
可选地,在第一方面的一种可能实现方式中,所述若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语,包括:
获取每个数量词的前一个待分析词语和后一个待分析词语;
若存在任意一个数量词的前一个待分析词语或后一个待分析词语与第一关联词语相同或相对应,则将相应的数量词作为第一待分析词语;
若所述前一个待分析词语或后一个待分析词语句中的任意一个与预设删除词语相对应,则将相应数量词删除;
在将相应数量词删除后,若数量词为1个,则将剩余的1个数量词作为第一待分析词语。
可选地,在第一方面的一种可能实现方式中,还包括:
在将相应数量词删除后,若数量词为多个,则获取与所述第一关联词语相对应的增强认证词语;
若判断数量词的前一个待分析词语或后一个待分析词语与增强认证词语相同或相对应,且相应的数量词为1个,则将相应的数量词作为第一待分析词语;
若数量词为多个或无法确定相应的数量词,则对所述第一目标分析语句输出显示;
接收工作人员的选中信息在所述第一目标分析语句中确定相应的第一待分析词语,基于所述第一待分析词语的前一个待分析词语和/或后一个待分析词语对所述增强认证词语更新。
可选地,在第一方面的一种可能实现方式中,所述关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句,提取所述第二目标分析语句中的第二待分析词语,所述第二待分析词语包括第二数量词,包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句;
在多个目标分析语句中确定与第二关联词语对应的第二目标分析语句;
确定所述第二目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第二待分析词语;
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第二待分析词语。
可选地,在第一方面的一种可能实现方式中,所述若所述关联分析函数为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值,包括:
若判断分析维度所对应的标准关联区间为正向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值、初步计算数值作为区间最小值;
若判断分析维度所对应的标准关联区间为负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相减得到区间最小值、初步计算数值作为区间最大值;
若判断分析维度所对应的标准关联区间为正向偏移方向和负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值,将所述初步计算数值与常数值相减得到区间最小值;
统计区间最小值和区间最大值得到比例关系的标准关联区间。
可选地,在第一方面的一种可能实现方式中,通过以下公式计算标准关联区间,
其中,为正向偏移方向,/>为负向偏移方向,/>为正向偏移方向和负向偏移方向,/>为区间最小值,/>为区间最大值,/>为第一数量词,/>为比例值,/>为正向的常数值,/>为增加权重系数值,/>为负向的常数值,/>为减小权重系数值。
可选地,在第一方面的一种可能实现方式中,所述若所述第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型,包括:
若所述关联分析函数为第一函数,且第二数量词不位于有限的标准关联区间内,则确定异常类型为数据采集异常,输出异常关联提醒信息及数据采集异常;
若所述关联分析函数为第二函数,且第二数量词不位于比例关系的标准关联区间内,则确定异常类型为生产指标异常,输出异常关联提醒信息及生产指标异常。
可选地,在第一方面的一种可能实现方式中,还包括:
在判断输出异常关联提醒信息及生产指标异常后,对工作人员的行为进行监测,若判断工作人员反馈提醒正确信息,则不对增加权重系数值和减小权重系数值进行修正训练;
若判断工作人员反馈提醒错误信息,则将第二数量词与相应的标准关联区间比对,确定需要调整的增加权重系数值或减小权重系数值;
将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练。
可选地,在第一方面的一种可能实现方式中,所述将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练,包括:
若第二数量词小于所述标准关联区间的区间最小值,则根据所述第二数量词、区间最小值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的减小权重系数值;
若第二数量词大于所述标准关联区间的区间最大值,则根据所述第二数量词、区间最大值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的增大权重系数值;
通过以下公式计算增大后的减小权重系数值或增大后的增大权重系数值,
本发明实施例的第二方面,提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
本发明提供的一种文本关联性分析方法,能够根据需求的不同得到关联性分析插件,本发明会根据语义分析、自然语言处理等方式对目标分析文本进行处理,锁定相应的第一数量词和第二数量词,根据预设的关联分析函数对第一数量词和第二数量词进行关联性的分析,即通过第一数量词、关联分析函数得到第二数量词所应当处于的合理化的标准关联区间,并根据第二数量词与标准关联区间的关系输出提醒信息。通过该种方式,使得本发明能主动对目标分析文本内相关联的词语进行分析,实现对相应公司、主体的生产、生活行为进行相应的判断,并根据分析结果的不同进行提醒。
本发明在确定第一待分析词语或第二待分析词语时,会结合待分析词语的前一个待分析词语和后一个待分析词语进行分析,并且在数量词的不同数量时,采取不同的确定方式。本发明会结合增强认证词语对第一待分析词语进行确定,并且在无法确定相应的第一待分析词语时,本发明会根据工作人员的选中信息对增强认证词语更新,使得本发明能够对不同分析维度所对应的增强认证词语的语料库进行持续的更新,使得后续计算过程中,可以结合相应的增强认证词语快速确定第一待分析词语或第二待分析词语,进而提高第一待分析词语或第二待分析词语的确认效率,降低文本关联性分析时的人工操作量。
本发明会将标准关联区间区分为第一函数对应的标准关联区间和/或第二函数对应的标准关联区间,并且不同函数对应的标准关联区间所输出的结果会存在一定的差别,本发明会根据不同分析维度所对应的不同比例值、常数值进行综合的计算,得到相应主体在相应分析维度下所对应的标准关联区间,使得本发明能够根据场景、主体、维度的不同,动态的生成标准关联区间,使得后续所输出的关联提醒信息更加的准确。并且,在输出的异常关联提醒信息及生产指标异常存在错误时,本发明会根据第二数量词与标准关联区间的差异对减小权重系数值和增大权重系数值进行持续的训练,使得训练后的减小权重系数值和增大权重系数值更符合当前的计算场景,使得所计算的标准关联区间更加准确。
附图说明
图1为文本关联性分析方法的第一种实施方式的流程图;
图2为文本关联性分析方法的第二种实施方式的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本发明提供一种文本关联性分析方法,如图1所示,包括:
步骤S110、在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数。本发明提供的技术方案,会在接收到关联性分析数据后,生成相对应的关联性分析数据,关联性分析插件可以是基于软件实现,也可以是基于网页实现,即在相应的软件(Word、Excel)、网页(IE浏览器、360浏览器)上进行安装。不同的关联性分析场景会具有不同的关联性分析数据,本发明会根据关联性分析数据对所述关联性分析插件进行配置,例如本发明需要对财务报表内的文本进行关联性分析,此时本发明会结合关联性分析插件确定第一关联词语、第二关联词语,根据第一关联词语和第二关联词语之间的关系得到相对应的关联分析函数。
本发明提供的技术方案,在一个可能的实施方式中,如图2所示,步骤S110包括:
步骤S1101、确定所述关联性分析数据中目标分析文本的分析维度,根据目标分析文本的分析维度生成与关联性分析插件对应的关联分析表。在每次进行文本关联性分析时,本发明会生成与每个关联性分析插件对应的关联分析表,即通过该关联分析表进行对目标分析文本进行分析。本发明首先会得到关联性分析数据中目标分析文本的分析维度,例如目标分析文本为纳税申报表、合同、会议记录、台账等等,此时的分析维度可以是纳税维度、利润维度等等,本发明会根据目标分析文本的分析维度生成与关联性分析插件对应的关联分析表,此时关联分析表中的分析维度可以是1个,也可以是多个。
步骤S1102、根据分析维度在关联分析表中生成相应的维度行,每个维度行对应一个分析维度,在所述维度行中创建第一词语格、第二词语格以及分析函数格。本发明会根据分析维度的不同,在关联分析表中生成相应的维度行,例如分析维度是纳税维度时,此时的维度行即至少包括与纳税维度所对应的维度行,本发明会在维度行中创建多个词语格,此时会在维度行中创建至少1个第一词语格、第二词语格以及分析函数格,每个维度行中的第一词语格、第二词语格以及分析函数格内的词语、函数是相对应的。
步骤S1103、将每个分析维度所对应的预设变量词语作为第一关联词语,将所述第一关联词语填充至所述第一词语格内。本发明会将分析维度所对应的预设变量词语作为第一关联词语,预设变量词语可以是年度纳税申报表内的营业收入、利润总额等等,一般来说,企业的营业收入、利润总额会随着年度的不同发生改变,所以此时的预设变量词语所对应的数值可以是随着时间发生变化的。
步骤S1104、将每个分析维度所对应的预设验证词语作为第二关联词语,将所述第二关联词语填充至所述第二词语格内。本发明会将每个分析维度所对应的预设验证词语作为第二关联词语,预设验证词语可以是年度纳税申报表内的应纳税所得额等等,第二关联词与第一关联词语之间存在一定的关系,例如利润总额越多,则相对应的应纳税所得额就会越多。
步骤S1105、调取与所述分析维度所对应的关联分析函数,将所述关联分析函数填充至所述分析函数格内。本发明会调取与所述分析维度所对应的关联分析函数,例如关联分析函数可以是一元一次函数、二元一次函数等等,本发明会将分析函数填充至相对应的分析函数格内,不同的分析维度所对应的关联分析函数是不同的。
步骤S120、关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句,提取所述第一目标分析语句中的第一待分析词语,所述第一待分析词语包括第一数量词。在实际的应用场景中,目标分析文本中会包括很多的语句,所以关联性分析插件会首先根据第一关联词语在目标分析文本中确定相对应的第一目标分析语句,此时的第一目标分析语句可以是至少一句文本,也可以是一行文本(包括至少一句文本),本发明会提取第一目标分析语句中的第一待分析词语,例如第一关联词语为利润总额,此时的第一待分析词语即可以是1000万,即相应的利润总额即可以是1000万。1000万即可以是第一数量词。
本发明提供的技术方案,在一个可能的实施方式中,步骤S120包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句。本发明首先会对目标分析文本进行分词处理,即将目标分析文本分成多个待分析词语,本发明会在得到目标分析语句时,会统计相邻的标点符号间的所有待分析词语得到目标分析语句,一般情况下,每相邻的两个标点符号之间的词语会形成一个语句。
在多个目标分析语句中确定与第一关联词语对应的第一目标分析语句,所述第一目标分析语句中具有与第一关联词语相同或相对应的待分析词语。本发明会首先在目标分析语句中确定与第一关联词语对应的第一目标分析语句,可以这样理解,第一目标分析语可以包括待分析词语,第一目标分析语句中的待分析词语可以是与第一关联词语具有相同的语义,此时的待分析词语可以是名词、动词、数量词等等。
确定所述第一目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第一待分析词语。在本发明提供的应用场景中,主要是针对数量词进行关联性分析,在第一目标分析语句中的数量词为1个时,则直接将相应的数量词作为第一待分析词语,此时的第一待分析词语即为数量词,可以是阿拉伯数字,也可以是文字的大写数字。
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语。在实际的应用场景中,数量词可能会具有多个,例如第一待分析词语为“2011年的利润总额100万元”,此时的数量词即为2个,“2011”和“100”,此时本发明需要在多个数量词中确定一个数量词作为第一待分析词语。
本发明提供的技术方案,在一个可能的实施方式中,所述若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语,包括:
获取每个数量词的前一个待分析词语和后一个待分析词语。本发明会得到每个数量词的前一个待分析词语和后一个待分析词语,例如2011年的利润总额100万元。此时的数量词“2011”的前一个待分析词语为空,后一个待分析词语为年,此时的数量词“100”的前一个待分析词语为利润总额,后一个待分析词语为万。
若存在任意一个数量词的前一个待分析词语或后一个待分析词语与第一关联词语相同或相对应,则将相应的数量词作为第一待分析词语。此时“100”的前一个待分析词语与第一关联词语相同,所以此时会直接将“100”作为第一待分析词语,通过该种方式,能够对一个第一待分析词语句中的多个第一待分析词语进行分析,得到需要进行关联性分析的第一待分析词语。
若所述前一个待分析词语或后一个待分析词语句中的任意一个与预设删除词语相对应,则将相应数量词删除。本发明可以预先设置预设删除词语,预设删除词语可以是年、月以及日等时间性词语,在前一个待分析词语或后一个待分析词语句中的任意一个与预设删除词语相对应时,本发明会将相应的数量词删除,即可以是将2011删除。
在将相应数量词删除后,若数量词为1个,则将剩余的1个数量词作为第一待分析词语。在判断删除至少一个数量词后,此时所剩余的数量词为1个,本发明会将唯一剩余的1个数量词作为第一待分析词语。
本发明提供的技术方案,在一个可能的实施方式中,还包括:
在将相应数量词删除后,若数量词为多个,则获取与所述第一关联词语相对应的增强认证词语。在一个可能的实施场景下,在对相应的数量词删除后,此时的数量词可能还会为多个,所以此时本发明会得到与第一关联词语相对应的增强认证词语,例如第一关联词语为利润总额,此时的增强认证词语即可以是万元。部分第一关联词语可能会具有相对应的增强认证词语,部分第一关联词语即可能不会具有相对应的增强认证词语。
若判断数量词的前一个待分析词语或后一个待分析词语与增强认证词语相同或相对应,且相应的数量词为1个,则将相应的数量词作为第一待分析词语。此时本发明会根据增强认证词语确定相应的第一待分析词语,使得本发明能够快速、准确、自动的在多个数量词中确定相应的第一待分析词语。
若数量词为多个或无法确定相应的数量词,则对所述第一目标分析语句输出显示。在不存在与第一关联词语对应的增强认证词语,或无法通过增强认证词语确定唯1的数量词,则此时会对第一目标分析语句输出显示,通过工作人员协助进行第一关联词语的确定、锁定。
接收工作人员的选中信息在所述第一目标分析语句中确定相应的第一待分析词语,基于所述第一待分析词语的前一个待分析词语和/或后一个待分析词语对所述增强认证词语更新。本发明会根据工作人员的选中信息在所述第一目标分析语句中确定相应的第一待分析词语,并且此时本发明会根据第一待分析词语的前一个待分析词语和/或后一个待分析词语对所述增强认证词语更新,使得与相应第一关联词语的增强认证词语的语料能够持续的更新,在后续确定第一待分析词语的过程中,效率更高。
步骤S130、关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句,提取所述第二目标分析语句中的第二待分析词语,所述第二待分析词语包括第二数量词。关联性分析插件会根据第二关联词语在目标分析文本中确定相对应的第二目标分析语句,此时的第二目标分析语句可以是至少一句文本,也可以是一行文本(包括至少一句文本),本发明会提取第二目标分析语句中的第二待分析词语,例如第二关联词语为应纳税所得额,此时的第二待分析词语即可以是20万,即相应的利润总额即可以是20万。20万即可以是第二数量词。
本发明提供的技术方案,在一个可能的实施方式中,步骤S130包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句;
在多个目标分析语句中确定与第二关联词语对应的第二目标分析语句,所述第二目标分析语句中具有与第二关联词语相同或相对应的待分析词语。在确定第二目标分析语句,可以是与确定第一目标分析语句的方式相同,即本发明会首先在目标分析语句中确定与第二关联词语对应的第二目标分析语句,可以这样理解,第二目标分析语可以包括待分析词语,第二目标分析语句中的待分析词语可以是与第二关联词语具有相同的语义,此时的待分析词语可以是名词、动词、数量词等等。
确定所述第二目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第二待分析词语。在确定第二待分析词语时,可以是与确定第一待分析词语的方式相同。在本发明提供的应用场景中,主要是针对数量词进行关联性分析,在第二目标分析语句中的数量词为1个时,则直接将相应的数量词作为第二待分析词语,此时的第二待分析词语即为数量词,可以是阿拉伯数字,也可以是文字的大写数字。
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第二待分析词语。在实际的应用场景中,数量词可能会具有多个,例如第二待分析词语为“2011年的年度应纳税额20万元”,此时的数量词即为2个,“2011”和“20”,此时本发明需要在多个数量词中确定一个数量词作为第二待分析词语。
步骤S140、关联性分析插件根据所述关联分析函数、第一数量词生成至少一个标准关联区间,若所述第二数量词位于所述标准关联区间内,则输出正常关联提醒信息。本发明中的关联性分析插件会根据关联分析函数、第一数量词生成至少一个标准关联区间,在第二数量词位于标准关联区间内时,此时可以认为第二数量词与第一数量词是相对应的,此时本发明会输出正常关联提醒信息,对工作人员进行提醒。
本发明提供的技术方案,在一个可能的实施方式中,步骤S140包括:
若所述关联分析函数为第一函数,则根据所述第一数量词确定所述第一函数的有限的标准关联区间,所述第一函数中具有标准关联区间的最大值和/或最小值,第一函数可以是根据不同的应用场景设置的。本发明提供的技术方案,会将关联分析函数分为第一函数和第二函数,通过第一数量词和第一函数可以确定一个有限的标准关联区间。可以通过第一函数来判断第一数量词和第二数量词之间是否存在正确的逻辑。例如一个公司的利润值为100万,在常规条件下,其应纳税所得额会在0至25万之间,如果获取的应纳税所得额为1000万,则此时较大概率相对应的目标分析文本中的第一数量词或第二数量词出现错误。所以本发明会确定第一函数中具有标准关联区间的最大值和/或最小值。
需要说明的是,本发明会根据第一数量词确定所述第一函数的有限的标准关联区间,本发明可以预设设置相对应的函数对应表,函数对应表内具有每种类型的第一数量词所对应的第一函数,第一函数可以是,/>是斜率值,/>是一个预设的常数值,/>即可以是有限的标准关联区间中的最大值,/>可以是有限的标准关联区间中的最小值。例如/>为0.25、/>,则此时的/>即为100万乘0.25等于25万、/>。
若所述关联分析函数为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值,可以通过第一数量词、第二函数根据比例关系确定相应的标准关联区间,例如将第一数量词和一个比例关系相乘即得到相对应的标准关联区间,比例关系可以是0至0.25、0.1至0.25等等。可以通过第二函数来判断第一数量词和第二数量词之间的对应逻辑。例如一个公司的利润值为100万,在常规条件下,其应纳税所得额会在0至25万之间,如果其存在加计扣除事项,则此时的应纳税所得额会小于25万,如果其不存在加计扣除事项及其他减缓税款的事项,则此时其应纳税所得额会等于25万。例如说为了确定一个公司的研发情况,如果其应纳税所得额为25万,则此时其研发支出较少,进而造成了其加计扣除所对应的税款较少,即通过第二数量词的所处区间能够判断一个公司的研发支出状态、占比。所以,此时本发明会根据第一数量词确定所述第二函数的比例关系的标准关联区间,比例值可以是0.25,常数值可以是根据第一数量词的量级来确定,如果第一数量词的量级较大,则此时相对应的常数值也会较大,相反的,如果第一数量词的量级较小,则此时相对应的常数值也会较小。
若所述第二数量词位于所述有限的标准关联区间、比例关系的标准关联区间,则输出正常关联提醒信息。在第二数量词位于所述有限的标准关联区间内时,则证明此时所采集的第一数量词和第二数量词都是相对应的。在第二数量词位于比例关系的标准关联区间时,则证明相应的第二数量词是满足认为设置的区间的。通过该种方式,本发明即可以对所采集的第一数量词、第二数量词的真实性进行验证,也可以快速的确定不满足经营要求的公司。
需要说明的是,在进行真实性验证时,只有第二数量词位于相对应的标准关联区间内后,则判断相应的第一数量词、第二数量词是真实的、正确的。但是当第二数量词不位于相对应的标准关联区间内时,此时可能是第一数量词是非真实的,也可能第二数量词是非真实的。
通过该种方式,可以进行计算的场景较多,例如确定某一个公司的研发支出占比、人员支出占比、加计扣除占比等等,通过以上占比分析某一个公司的生产经营情况。
并且,目标分析文本也可以是花名册,第一数量词可以是员工总数、销售人数等等,第二数量词可以是研发人数等等。分析维度可以是研发人员比例维度等等。
本发明提供的技术方案,在一个可能的实施方式中,所述若所述关联分析函数为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值,包括:
若判断分析维度所对应的标准关联区间为正向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值、初步计算数值作为区间最小值。在某些场景下,可以根据分析维度所对应的标准关联区间确定正向偏移方向,即第二数量词在数值关系上是大于第一数量词的,此时的比例值可以是大于1的,常数值可以是在第一数量词的基础上,正确的、符合要求的第二数量词的上浮区间。所以此时本发明可以根据第一数量词、比例值进行计算得到初步计算数值,并且将初步计算数值与常数值相加得到区间最大值、初步计算数值作为区间最小值,此时得到第一种类型的标准关联区间。
若判断分析维度所对应的标准关联区间为负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相减得到区间最小值、初步计算数值作为区间最大值。在某些场景下,可以根据分析维度所对应的标准关联区间确定负向偏移方向,即第二数量词在数值关系上是小于第一数量词的,此时的比例值可以是小于1的,常数值可以是在第一数量词的基础上,正确的、符合要求的第二数量词的下浮区间。所以此时本发明可以根据第一数量词、比例值进行计算得到初步计算数值,并且将初步计算数值与常数值相减得到区间最小值、初步计算数值作为区间最大值,此时得到第二种类型的标准关联区间。
若判断分析维度所对应的标准关联区间为正向偏移方向和负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值,将所述初步计算数值与常数值相减得到区间最小值。在某些场景下,可以根据分析维度所对应的标准关联区间确定正向偏移方向和负向偏移方向,即第二数量词在数值关系上可能大于第一数量词的、也可能是小于第一数量词的,但是会在一个合理的、要求的区间之内。所以此时本发明可以根据第一数量词、比例值进行计算得到初步计算数值,并且将将所述初步计算数值与常数值相加得到区间最大值,将所述初步计算数值与常数值相减得到区间最小值,结合区间最大值和区间最小值得到第三种类型的标准关联区间。
统计区间最小值和区间最大值得到比例关系的标准关联区间。通过该种方式,使得本发明能够得到不同分析维度所对应的标准关联区间。以分析维度是应纳税额维度举例,此时的标准关联区间为第二种类型的标准关联区间,初步计算数值作为区间最大值即可能为25万、18万等等, 可以根据实际场景对比例值进行设定,常数值可以是3万、5万等等。例如标准关联区间即可以是15万至18万、20万至25万等等。
本发明提供的技术方案,在一个可能的实施方式中,通过以下公式计算标准关联区间,
其中,为正向偏移方向,/>为负向偏移方向,/>为正向偏移方向和负向偏移方向,/>为区间最小值,/>为区间最大值,/>为第一数量词,/>为比例值,/>为正向的常数值,/>为增加权重系数值,/>为负向的常数值,/>为减小权重系数值。
本发明会在分析维度不同时,采取不同的计算方式,得到不同的标准关联区间。
通过以上的技术方案,使得本发明能够根据第一数量词和第二数量词在实际应用场景中的数量关系的不同,基于第一数量词确定相应第二数量词所处于的合理的、满足要求的标准关联区间。进而判断第二数量词在以第一数量词的数值为前提下,是否与第一数量词相对应。
步骤S150、若所述第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
在若所述第二数量词不位于所述标准关联区间内时,此时则第二数量词不与第一数量词相对应,所以本发明可以通过关联分析函数的属性确定异常类型,并对工作人员输出相应的异常关联提醒信息及异常类型,异常类型可以是第一数量词和第二数量词的采集错误(事实错误),也可以是第一数量词和第二数量词不满足预设要求(工作人员设置的预设数量关系要求),此时本发明会输出相应的异常关联提醒信息及异常类型。
本发明提供的技术方案,在一个可能的实施方式中,步骤S150包括:
若所述关联分析函数为第一函数,且第二数量词不位于有限的标准关联区间内,则确定异常类型为数据采集异常,输出异常关联提醒信息及数据采集异常。此时,则证明第一数量词或第二数量词中的至少一个可能出现了采集异常的情况。在实际的应用场景中,目标分析文本可能是用户手工录入的,也可能是基于OCR等技术自动识别的,所以目标分析文本中的数量词可能会出现一定的误差。在该种情况下,则出现了违反事实规律的第一数量词和第二数量词,例如第一数量词中的公司总人数为100人,第二数量词中的公司研发人数为200人,则此时即可以认为是第一数量词和第二数量词出现了违反事实规律的情况。例如利润值为100万,应纳税所得额为1000万,则此时也可能出现了违反事实规律的情况(在排除补税等极少数例外的情况下)。
若所述关联分析函数为第二函数,且第二数量词不位于比例关系的标准关联区间内,则确定异常类型为生产指标异常,输出异常关联提醒信息及生产指标异常。此时,则证明相应的第一数量词和第二数量词之间的关系并不能够满足工作人员的设定要求,例如某个公司在计算加计扣除的前提下,其应纳税额度需要在一定比例之间浮动是正常、满足相应经营要求的,所以此时会结合第一数量词进行比例计算、浮动计算得到第一数量词,在第二数量词不位于比例关系的标准关联区间内时,则确定异常类型为生产指标异常,此时会输出生产指标异常,对工作人员进行相应的提醒。
本发明提供的技术方案,在一个可能的实施方式中,还包括:
在判断输出异常关联提醒信息及生产指标异常后,对工作人员的行为进行监测,若判断工作人员反馈提醒正确信息,则不对增加权重系数值和减小权重系数值进行修正训练。此时所输出的异常关联提醒信息及生产指标异常是符合相应计算场景的,此时工作人员会对针对生产指标异常反馈提醒正确信息,此时不需要对增加权重系数值和减小权重系数值进行修正训练。
若判断工作人员反馈提醒错误信息,则将第二数量词与相应的标准关联区间比对,确定需要调整的增加权重系数值或减小权重系数值。在实际的应用场景中,本发明可能会输出生产指标异常,此时用户会根据生产指标异常对相应的公司、生产部门进行监管,在实际的应用场景中,不同分析维度的权重系数值都是预先设置的,进而导致在不同的计算场景下,权重系数值可能不符合相应的公司的计算场景,所以此时能会出现输出的生产指标异常不符合相应工作场景的要求,例如科技型企业所对应的研发支出、加计扣除数、研发人员的占比则需要较高,例如生产型企业所对应的研发支出、加计扣除数、研发人员的占比则需要较低,所以此时的增加权重系数值或减小权重系数值可能会因为所计算场景的不同发生改变。在工作人员反馈提醒错误信息时,则证明相应的生产指标异常是错误的,此时的生产指标应当是正常的。
将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练。本发明会结合第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据权重调整比例对增加权重系数值和减小权重系数值进行修正训练,如果权重调整比例越大,则增加权重系数值和减小权重系数值进行修正训练的幅度就越大。
本发明提供的技术方案,在一个可能的实施方式中,所述将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练,包括:
若第二数量词小于所述标准关联区间的区间最小值,则根据所述第二数量词、区间最小值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的减小权重系数值。此时,需要对减小权重系数值进行增大的修正训练,如果第二数量词小于标准关联区间的区间最小值,则证明此时的标准关联区间整体偏大,所以此时需要根据第二数量词、区间最小值进行计算得到权重调整比例,使得减小权重系数值进行增大的修正训练,使得后续所计算的减小权重系数值更大, 进而使得标准关联区间的区间最小值越来越小。
若第二数量词大于所述标准关联区间的区间最大值,则根据所述第二数量词、区间最大值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的增大权重系数值。此时,需要对减小权重系数值进行增大的修正训练,如果第二数量词大于标准关联区间的区间最大值,则证明此时的标准关联区间整体偏小,所以此时需要根据第二数量词、区间最大值进行计算得到权重调整比例,使得增大权重系数值进行增大的修正训练,使得后续所计算的增大权重系数值更大, 进而使得标准关联区间的区间最大值越来越大。
通过以下公式计算增大后的减小权重系数值或增大后的增大权重系数值,
其中,为增大后的减小权重系数值,/>为第二数量词,/>为第一增大梯度参数,/>为增大后的增大权重系数值,/>为第二增大梯度参数。通过/>可以进行计算得到权重调整比例,/>越大,则/>越大。同样的,通过/>可以进行计算得到权重调整比例,/>越大,则/>越大。通过以上的技术方案,使得本发明能够持续对减小权重系数值和增大权重系数值进行持续的训练,使得其权重系数值能越来越满足不同用户、公司、使用场景的需求,保障标准关联区间的准确性。
本发明还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在存储介质中。设备的至少一个处理器可以从存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种文本关联性分析方法,其特征在于,包括:
在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数;
确定所述关联性分析数据中目标分析文本的分析维度,根据目标分析文本的分析维度生成与关联性分析插件对应的关联分析表;
根据分析维度在关联分析表中生成相应的维度行,每个维度行对应一个分析维度,在所述维度行中创建第一词语格、第二词语格以及分析函数格;
将每个分析维度所对应的预设变量词语作为第一关联词语,将所述第一关联词语填充至所述第一词语格内;
将每个分析维度所对应的预设验证词语作为第二关联词语,将所述第二关联词语填充至所述第二词语格内;
调取与所述分析维度所对应的关联分析函数,将所述关联分析函数填充至所述分析函数格内;
关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句,提取所述第一目标分析语句中的第一待分析词语,所述第一待分析词语包括第一数量词,所述第一目标分析语句中具有与第一关联词语相同或相对应的待分析词语;
关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句,提取所述第二目标分析语句中的第二待分析词语,所述第二待分析词语包括第二数量词,所述第二目标分析语句中具有与第二关联词语相同或相对应的待分析词语;
若所述关联分析函数的函数类型为第一函数,则根据所述第一数量词确定所述第一函数的有限的标准关联区间,所述第一函数中具有标准关联区间的最大值和/或最小值;
若所述关联分析函数的函数类型为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值;
若所述第二数量词位于相对应有限的标准关联区间、比例关系的标准关联区间,则输出正常关联提醒信息;
若所述第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
2.根据权利要求1所述的一种文本关联性分析方法,其特征在于,
所述关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句,提取所述第一目标分析语句中的第一待分析词语,所述第一待分析词语包括第一数量词,包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句;
在多个目标分析语句中确定与第一关联词语对应的第一目标分析语句;
确定所述第一目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第一待分析词语;
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语。
3.根据权利要求2所述的一种文本关联性分析方法,其特征在于,
所述若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第一待分析词语,包括:
获取每个数量词的前一个待分析词语和后一个待分析词语;
若存在任意一个数量词的前一个待分析词语或后一个待分析词语与第一关联词语相同或相对应,则将相应的数量词作为第一待分析词语;
若所述前一个待分析词语或后一个待分析词语句中的任意一个与预设删除词语相对应,则将相应数量词删除;
在将相应数量词删除后,若数量词为1个,则将剩余的1个数量词作为第一待分析词语。
4.根据权利要求3所述的一种文本关联性分析方法,其特征在于,还包括:
在将相应数量词删除后,若数量词为多个,则获取与所述第一关联词语相对应的增强认证词语;
若判断数量词的前一个待分析词语或后一个待分析词语与增强认证词语相同或相对应,且相应的数量词为1个,则将相应的数量词作为第一待分析词语;
若数量词为多个或无法确定相应的数量词,则对所述第一目标分析语句输出显示;
接收工作人员的选中信息在所述第一目标分析语句中确定相应的第一待分析词语,基于所述第一待分析词语的前一个待分析词语和/或后一个待分析词语对所述增强认证词语更新。
5.根据权利要求4所述的一种文本关联性分析方法,其特征在于,
所述关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句,提取所述第二目标分析语句中的第二待分析词语,所述第二待分析词语包括第二数量词,包括:
对所述目标分析文本进行分词处理得到多个待分析词语,统计两个相邻的标点符号间的所有待分析词语得到目标分析语句;
在多个目标分析语句中确定与第二关联词语对应的第二目标分析语句;
确定所述第二目标分析语句中的所有数量词,若所述数量词为1个,则将相应的数量词作为第二待分析词语;
若所述数量词为多个,则在所述多个数量词中确定一个数量词作为第二待分析词语。
6.根据权利要求1所述的一种文本关联性分析方法,其特征在于,
所述若所述关联分析函数为第二函数,则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间,所述第二函数中具有与标准关联区间对应的比例值和/或常数值,包括:
若判断分析维度所对应的标准关联区间为正向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值、初步计算数值作为区间最小值;
若判断分析维度所对应的标准关联区间为负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相减得到区间最小值、初步计算数值作为区间最大值;
若判断分析维度所对应的标准关联区间为正向偏移方向和负向偏移方向,则根据第一数量词、比例值进行计算得到初步计算数值,将所述初步计算数值与常数值相加得到区间最大值,将所述初步计算数值与常数值相减得到区间最小值;
统计区间最小值和区间最大值得到比例关系的标准关联区间。
8.根据权利要求7所述的一种文本关联性分析方法,其特征在于,
所述若所述第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型,包括:
若所述关联分析函数为第一函数,且第二数量词不位于有限的标准关联区间内,则确定异常类型为数据采集异常,输出异常关联提醒信息及数据采集异常;
若所述关联分析函数为第二函数,且第二数量词不位于比例关系的标准关联区间内,则确定异常类型为生产指标异常,输出异常关联提醒信息及生产指标异常。
9.根据权利要求8所述的一种文本关联性分析方法,其特征在于,还包括:
在判断输出异常关联提醒信息及生产指标异常后,对工作人员的行为进行监测,若判断工作人员反馈提醒正确信息,则不对增加权重系数值和减小权重系数值进行修正训练;
若判断工作人员反馈提醒错误信息,则将第二数量词与相应的标准关联区间比对,确定需要调整的增加权重系数值或减小权重系数值;
将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练。
10.根据权利要求9所述的一种文本关联性分析方法,其特征在于,
所述将所述第二数量词与标准关联区间的区间最小值或区间最大值进行比对,得到权重调整比例,根据所述权重调整比例对增加权重系数值和减小权重系数值进行修正训练,包括:
若第二数量词小于所述标准关联区间的区间最小值,则根据所述第二数量词、区间最小值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的减小权重系数值;
若第二数量词大于所述标准关联区间的区间最大值,则根据所述第二数量词、区间最大值进行计算得到权重调整比例,根据所述权重调整比例对减小权重系数值进行增大的修正训练,得到增大后的增大权重系数值;
通过以下公式计算增大后的减小权重系数值或增大后的增大权重系数值,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354256.1A CN116069938B (zh) | 2023-04-06 | 2023-04-06 | 一种文本关联性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354256.1A CN116069938B (zh) | 2023-04-06 | 2023-04-06 | 一种文本关联性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116069938A CN116069938A (zh) | 2023-05-05 |
CN116069938B true CN116069938B (zh) | 2023-06-20 |
Family
ID=86173544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310354256.1A Active CN116069938B (zh) | 2023-04-06 | 2023-04-06 | 一种文本关联性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069938B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434158A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
CN112926308A (zh) * | 2021-02-25 | 2021-06-08 | 北京百度网讯科技有限公司 | 匹配正文的方法、装置、设备、存储介质以及程序产品 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014201250B2 (en) * | 2011-04-21 | 2015-01-15 | Accenture Global Services Limited | Analysis system for test artifact generation |
CN111431926B (zh) * | 2020-04-02 | 2022-11-22 | 深信服科技股份有限公司 | 一种数据关联分析的方法、系统、设备及可读存储介质 |
CN112668836B (zh) * | 2020-12-07 | 2024-04-05 | 数据地平线(广州)科技有限公司 | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 |
CN113420122B (zh) * | 2021-06-24 | 2024-06-04 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
CN113435856A (zh) * | 2021-07-06 | 2021-09-24 | 中电科大数据研究院有限公司 | 一种个人简历数据编码及连续数值化方法 |
CN114417850A (zh) * | 2022-01-27 | 2022-04-29 | Oppo广东移动通信有限公司 | 信息抽取方法、装置、存储介质及电子设备 |
CN114493820B (zh) * | 2022-04-14 | 2022-07-05 | 国网浙江省电力有限公司绍兴供电公司 | 适用于财务数据的关联验证式采集方法、装置及存储介质 |
CN115168580A (zh) * | 2022-07-09 | 2022-10-11 | 哈尔滨理工大学 | 一种基于关键词提取与注意力机制的文本分类方法 |
CN115310772A (zh) * | 2022-07-13 | 2022-11-08 | 重庆药品交易所股份有限公司 | 一种药械质量监管结果数据监测方法、药械交易平台及系统 |
CN115238217B (zh) * | 2022-09-23 | 2022-12-20 | 山东省齐鲁大数据研究院 | 一种公告文本中抽取数值信息的方法及终端机 |
CN115712667B (zh) * | 2022-11-07 | 2024-03-01 | 中电科大数据研究院有限公司 | 一种图数据融合分析方法、装置及存储介质 |
-
2023
- 2023-04-06 CN CN202310354256.1A patent/CN116069938B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434158A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
CN112926308A (zh) * | 2021-02-25 | 2021-06-08 | 北京百度网讯科技有限公司 | 匹配正文的方法、装置、设备、存储介质以及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116069938A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
CN110619506B (zh) | 一种岗位画像生成方法、岗位画像生成装置及电子设备 | |
CN104081385B (zh) | 从文档表示信息 | |
AU2019201302A1 (en) | Systems and methods for identifying and explaining schema errors in the computerized preparation of a payroll tax form | |
US20170186098A1 (en) | Systems and methods for identifying and explaining errors in the preparation of a payroll tax form using error graphs | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
US11176620B1 (en) | Systems and methods for generating an error report listing errors in the preparation of a payroll tax form | |
CN113312578B (zh) | 一种数据指标的波动归因方法、装置、设备、及介质 | |
CN113590823A (zh) | 一种合同审批方法、装置、存储介质及电子设备 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN112948429A (zh) | 一种数据报送方法、装置和设备 | |
CN111651559A (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
CN113158988B (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN117113947B (zh) | 一种表单填充系统、方法、电子设备及存储介质 | |
CN116069938B (zh) | 一种文本关联性分析方法 | |
CN111292068B (zh) | 一种合同信息审核方法、装置、电子设备及存储介质 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN114581219A (zh) | 一种反电信网络诈骗预警方法及系统 | |
CA2959230A1 (en) | Systems and methods for identifying and explaining schema errors in the computerized preparation of a payroll tax form | |
CN111309870A (zh) | 数据快速搜索方法、装置及计算机设备 | |
CN118467682B (zh) | 一种数据库查询语句的生成方法、系统、设备及介质 | |
CN118569254B (zh) | 基于nlp的公文数据采集分析方法及系统 | |
CN112560430B (zh) | 文本中数值内容的纠错方法、装置及电子设备 | |
US11830081B2 (en) | Automated return evaluation with anomoly detection | |
CN111598441B (zh) | 人口数据分析方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |