CN112732893A - 文本信息的提取方法和装置、存储介质和电子设备 - Google Patents
文本信息的提取方法和装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN112732893A CN112732893A CN202110041856.3A CN202110041856A CN112732893A CN 112732893 A CN112732893 A CN 112732893A CN 202110041856 A CN202110041856 A CN 202110041856A CN 112732893 A CN112732893 A CN 112732893A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- speech
- keyword
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本信息的提取方法和装置、存储介质和电子设备,该方法包括:使用目标关键词从目标文本数据中获取目标子文本数据,其中,目标子文本数据的最后一个关键词为目标关键词;根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词;获取与目标子文本对应的目标文本信息,其中,目标文本信息包含至少一个关联词和目标关键词,目标文本信息用于标识一个业务对象。本申请通过使用目标关键字获取目标子文本数据,通过比较目标子文本数据包含的词语的词性,获取到与目标关键词的词性相同的至少一个关联词,将至少一个关联词与目标关键词进行组合得到目标文本信息,明显节省人工成本。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种文本信息的提取方法和装置、存储介质和电子设备。
背景技术
目前,各行各业都涌现出许多企业,而这些企业要想在竞争激烈的市场中存活、提高知名度以及壮大规模,就需要有大量的合作伙伴、客户等资源。于是,各企业之间或者企业与客户之间会进行大量的项目合作来满足双方需求,互相成就。而在项目合作过程中,双方为了避免因项目无法按时交付等问题,往往都需要实时了解合作项目的状态(或进度),此时迫切需要一种能够实时检测项目及其进度或状态的方式来缓解双方担忧。
当前对项目名称及项目状态的提取方式,都是企业人员从与合作方或客户的沟通信息(如对话或邮件)中获取,但由于每天都会产生大量的沟通信息,使用这种提取方式无疑会造成大量人工成本的浪费,而且会产生因提取不及时导致的信息滞后问题。
因此,相关技术的项目名称文本提取方式中存在大量人工成本浪费的问题。
发明内容
本申请提出一种文本信息的提取方法和装置、存储介质和电子设备,以至少解决相关技术的文本提取方式中存在大量人工成本浪费的问题。
根据本申请实施例的一个方面,提供了一种文本信息的提取方法,该方法包括:使用目标关键词从目标文本数据中获取目标子文本数据,其中,所述目标子文本数据的最后一个关键词为所述目标关键词;根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词;获取与所述目标子文本对应的目标文本信息,其中,所述目标文本信息包含至少一个所述关联词和所述目标关键词,所述目标文本信息用于标识一个业务对象。
可选地,使用目标关键词从目标文本数据中获取目标子文本数据包括:使用所述目标关键词从所述目标文本数据中获取多个子文本数据,其中,每个所述子文本数据的最后一个关键词为所述目标关键词;从多个所述子文本数据中选取一个子文本数据,得到所述目标子文本数据。
可选地,根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词包括:对所述目标子文本中包含的多个参考词进行词性分析,确定每个所述参考词的词性;根据每个所述参考词的词性,从多个所述参考词中提取出至少一个所述关联词,其中,每个所述关联词的词性与所述目标关键词的词性相同。
可选地,根据每个所述参考词的词性,从多个所述参考词中提取出至少一个所述关联词包括:将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词,其中,在所述关联词为多个的情况下,多个所述关联词在所述目标子文本数据中的位置连续。
可选地,将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词包括:按照由后到前的顺序,从多个所述参考词中依次选取出一个参考词,作为一个所述关联词,直到选取出的参考词的词性与所述目标关键词的词性不同,得到至少一个所述关联词。
可选地,将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词包括:按照由前到后的顺序,从多个所述参考词中依次选取出一个参考词,作为当前参考词;在所述当前参考词的词性与所述目标关键词的词性相同的情况下,将所述当前参考词确定为一个候选词;在所述当前参考词的词性与所述目标关键词的词性不同的情况下,删除当前已确定的所述候选词;在多个所述参考词均已被选取的情况下,将当前已确定的至少一个所述候选词,确定为至少一个所述关联词。
可选地,在获取与所述目标子文本对应的目标文本信息之后,所述方法还包括:从所述目标文本信息的上下文信息中,获取候选状态信息,其中,所述候选状态信息用于描述所述业务对象的业务状态;将所述候选状态信息与多个参考状态信息进行匹配,其中,所述参考状态信息是根据所述业务对象的历史业务状态信息确定的;在所述候选状态信息与所述多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,将所述目标状态信息,确定为所述业务对象的业务状态信息。
根据本申请实施例的另一个方面,还提供了一种文本信息的提取装置,该装置包括:第一获取模块,用于使用目标关键词从目标文本数据中获取目标子文本数据,其中,所述目标子文本数据的最后一个关键词为所述目标关键词;提取模块,用于根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词;第二获取模块,用于获取与所述目标子文本对应的目标文本信息,其中,所述目标文本信息包含至少一个所述关联词和所述目标关键词,所述目标文本信息用于标识一个业务对象。
可选地,第一获取模块包括:第一获取单元,用于使用所述目标关键词从所述目标文本数据中获取多个子文本数据,其中,每个所述子文本数据的最后一个关键词为所述目标关键词;得到单元,用于从多个所述子文本数据中选取一个子文本数据,得到所述目标子文本数据。
可选地,提取模块包括:第一确定单元,用于对所述目标子文本中包含的多个参考词进行词性分析,确定每个所述参考词的词性;提取单元,用于根据每个所述参考词的词性,从多个所述参考词中提取出至少一个所述关联词,其中,每个所述关联词的词性与所述目标关键词的词性相同。
可选地,提取单元包括:确定子单元,用于将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词,其中,在所述关联词为多个的情况下,多个所述关联词在所述目标子文本数据中的位置连续。
可选地,确定子单元包括:得到子单元,用于按照由后到前的顺序,从多个所述参考词中依次选取出一个参考词,作为一个所述关联词,直到选取出的参考词的词性与所述目标关键词的词性不同,得到至少一个所述关联词。
可选地,确定子单元包括:选取子单元,用于按照由前到后的顺序,从多个所述参考词中依次选取出一个参考词,作为当前参考词;第一确定子单元,用于在所述当前参考词的词性与所述目标关键词的词性相同的情况下,将所述当前参考词确定为一个候选词;删除子单元,用于在所述当前参考词的词性与所述目标关键词的词性不同的情况下,删除当前已确定的所述候选词;第二确定子单元,用于在多个所述参考词均已被选取的情况下,将当前已确定的至少一个所述候选词,确定为至少一个所述关联词。
可选地,该装置还包括:第二获取单元,用于在获取与所述目标子文本对应的目标文本信息之后,从所述目标文本信息的上下文信息中,获取候选状态信息,其中,所述候选状态信息用于描述所述业务对象的业务状态;匹配单元,用于将所述候选状态信息与多个参考状态信息进行匹配,其中,所述参考状态信息是根据所述业务对象的历史业务状态信息确定的;第二确定单元,用于在所述候选状态信息与所述多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,将所述目标状态信息,确定为所述业务对象的业务状态信息。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的文本信息的提取方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的文本信息的提取方法步骤。
本申请实施例通过使用目标关键字获取目标子文本数据,通过比较目标子文本数据包含的词语的词性,获取到与目标关键词的词性相同的至少一个关联词,并将至少一个关联词与目标关键词进行组合得到目标文本信息,其中目标文本信息就是待提取的文本信息,这样明显节省了人工成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种可选的文本信息的提取方法流程示意图;
图2是本发明实施例提供的一种可选的文本信息的提取方法装置框图;
图3是本申请实施例提供的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在获取项目名称和项目状态的相关技术中,通过人工搜集企业内所有项目信息来构建“项目编码-项目名称”词典,然后使用精准匹配方式从输入文本中查找出现在“项目编码-项目名称”字典中的项目名称,进而通过人工或者其他方式判断包含项目名称的文本中的项目状态信息,这种方式会造成大量人工成本的浪费,为了解决上述问题,本申请实施例提供一种文本信息的提取方法,如图1所示,该方法的流程可以包括以下步骤:
步骤S101,使用目标关键词从目标文本数据中获取目标子文本数据,其中,目标子文本数据的最后一个关键词为目标关键词;
步骤S102,根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词;
步骤S103,获取与目标子文本对应的目标文本信息,其中,目标文本信息包含至少一个关联词和目标关键词,目标文本信息用于标识一个业务对象。
可选地,本申请实施例可以使用目标关键词对目标文本数据进行切分,得到多个子文本数据,其中,每个子文本数据的最后一个关键词为目标关键词,然后从多个子文本数据中任意选取一个子文本数据,作为目标子文本数据,由于待提取的文本信息是一项目名称,所以本申请实施例可以将目标关键词设置为“项目”或“Project”等。
举例说明:将“全体请注意,AA图谱项目已进入交付状态了,而BB图谱项目还在开发阶段。”作为目标文本数据,将“项目”作为目标关键词,那么利用“项目”对目标文本数据进行切分,得到2个以“项目”为关键词结尾的目标子文本数据:“全体请注意,AA图谱项目”和“已进入交付状态了,而BB图谱项目”。
示例性地,本申请实施例还可以利用Index索引记录每个目标子文本数据的起始元素在每个目标子文本数据中的位置,本申请实施例从0开始作为元素索引角标,“全”和“已”的Index值分别是0和12,利用Index的值[0,12]对目标文本数据进行文本切分,得到多个子文本数据。
获取目标子文本数据包含的词语的词性,词性包括:标点符号、介词、名词或语气助词等,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词,这里的关联关系是指,目标子文本数据中提取出关联词的词性与目标关键词的词性相同。本申请实施例中的目标关键词“项目”是个名词,此时,将目标子文本数据中属于名词的词语作为关联词提取出来,其中,关联词的数量通常是至少一个。
将获取的多个关联词与目标关键词进行组合,得到目标子文本对应的目标文本信息,其中,目标文本信息就是待提取的文本,标识一个业务对象,可以是项目名称、业务名称、客户组织名称识别、产品名称等。
本申请实施例通过使用目标关键字获取目标子文本数据,通过比较目标子文本数据包含的词语的词性,获取到与目标关键词的词性相同的至少一个关联词,并将至少一个关联词与目标关键词进行组合得到目标文本信息,其中目标文本信息就是待提取的文本信息,这样明显节省人工成本。
作为一种可选实施例,根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词包括:
对目标子文本中包含的多个参考词进行词性分析,确定每个参考词的词性;
根据每个参考词的词性,从多个参考词中提取出至少一个关联词,其中,每个关联词的词性与目标关键词的词性相同。
可选地,由于目标子文本中包含大量的噪声数据,为了更干净的提取出目标文本信息,本申请实施例对目标子文本中包含的多个参考词进行词性分析,根据词性结果确定当前参考词是否是噪声数据。其中,参考词是指目标子文本中的各个分词词语,比如“全体”、“请”、“注意”、“,”、“AA”、“图谱”都是参考词。
然后对多个参考词的词性进行分析,将与“项目”相同词性的参考词提取出来,作为关联词,其中,与“项目”词性相同的有“全体”、“注意”、“AA”、“图谱”这些名词。
作为一种可选实施例,根据每个参考词的词性,从多个参考词中提取出至少一个关联词包括:
将多个参考词中与目标关键词相邻、且与目标关键词的词性相同的至少一个参考词,确定为至少一个关联词,其中,在关联词为多个的情况下,多个关联词在目标子文本数据中的位置连续。
可选地,在提取参考词的过程中,需要遵循一个原则:当前参考词需要和目标关键词相邻、且与目标关键词的词性相同,这时,才能将当前参考词作为关联词,并且,本申请实施例在提取参考词的过程是一次提取的,所以得到的关联词在目标子文本数据中的位置是连续的。
其中,确定关联词的方法可以是:按照目标子文本的序列,由后到前的顺序,从多个参考词中依次选取出一个参考词,作为一个关联词,直到选取出的参考词的词性与目标关键词的词性不同,得到至少一个关联词。
比如,“全体”、“请”、“注意”、“,”、“AA”、“图谱”都是参考词,“项目”是目标关键字,那么从后到前的顺序应该是从“图谱”开始,与“项目”的词性进行匹配,直到找到“,”为止,结束参考词的选取,因为“,”的词性是:标点符号,与“项目”的词性:名词并不相同,所以此时,将“AA”、“图谱”作为关联词。
确定关联词的方法也可以是:按照目标子文本的序列,按照由前到后的顺序,从多个参考词中依次选取出一个参考词,作为当前参考词,如果当前参考词的词性与目标关键词的词性相同的情况下,将当前参考词确定为一个候选词,可以存储在数据列表内,如果当前参考词的词性与目标关键词的词性不同的情况下,删除当前已确定的候选词,也即将已确定的候选词在数据列表内删除,然后再继续往后比较参考词的词性与目标关键词的词性是否相同,如果不同,则继续删除数据列表内已确定的候选词,否则,就将该参考词存储到数据列表内。
例如,“全体”、“请”、“注意”、“,”、“AA”、“图谱”都是参考词,“项目”是目标关键字,那么从前到后的顺序应该是从“全体”开始,与“项目”的词性进行匹配,此时,由于“全体”的词性与“项目”的词性相同,将“全体”存储到数据列表内,接着比较“请”与“项目”的词性,由于“请”的词性是:动词,与“项目”的词性不同,所以将数据列表内的“全体”删除,后面依次类推,直到所有参考词都已被选取完毕为止,此处操作过程不再赘述。
所以,最终在数据列表内存储的参考词是“AA”、“图谱”,将“AA”、“图谱”作为关联词。
将数据列表内得到的多个关联词和目标关键词做字符串拼接,得到待提取的目标文本信息。
另外,本申请实施例的数据列表内,还可以存储指示关联词和目标关键词的位置信息,以及每个目标子文本数据的起始元素在每个目标子文本数据中的位置信息,比如,数据列表内存储的结果是:“proName”:“AA图谱项目”,“proStart”:6,“proEnd”:11,“Indexi”:0,其中,proStart表示目标文本信息中起始元素的索引角标,这里"AA图谱项目"的起始元素是“A”,“A”的索引角标是6,proEnd表示目标文本信息中终止元素的索引角标,这里“AA图谱项目”的终止元素是“目”,“目”的索引角标是11,而“AA图谱项目”所在的目标子文本的首地址是0,说明“全”对应的目标子文本即是“AA图谱项目”所在的文本信息,然后根据“proStart”:6,“proEnd”:11的索引角标就能快速找到待提取的目标文本信息。
另外,在得到目标文本信息后,需要对该目标文信息对应的字符串进行字符串长度等的判断,来识别当前目标文本信息是否是真实有效的文本信息,如果字串长度太短或太长则认为不太可能是目标文本信息,比如项目名称一般不超过8字符,如果当前获取的目标文信息对应的字符串长度超过8字符,可以认为当前的目标文本信息无效。
本申请实施例弥补了相关技术中因构建的项目名称词典有限而无法识别文本中的项目名的问题,由于文本提取过程是实时的,解决了信息滞后问题,而且为后续使用模型识别项目名称实体任务提供了训练语料。
作为一种可选实施例,在获取与目标子文本对应的目标文本信息之后,方法还包括:
从目标文本信息的上下文信息中,获取候选状态信息,其中,候选状态信息用于描述业务对象的业务状态;
将候选状态信息与多个参考状态信息进行匹配,其中,参考状态信息是根据业务对象的历史业务状态信息确定的;
在候选状态信息与多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,将目标状态信息,确定为业务对象的业务状态信息。
可选地,依据上述各个实施例的内容,在获取到目标文本信息后,获取目标文本信息的上下文信息,比如,以当前目标文本信息的前L个字符和后L个字符为获取范围,从获取到的上下文信息中获取候选状态信息,其中,候选状态信息用于描述业务对象的业务状态,将这些候选状态信息与多个参考状态信息进行匹配,其中,参考状态信息是根据业务人员提供的比较规范的项目状态词典构建的历史业务状态信息,这里的参考状态信息可以是多个,比如开发阶段,已竣工等。
在候选状态信息与多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,说明当前候选状态信息符合目标在状态信息,比如符合“已竣工”这条目标状态信息,那么就将该目标状态信息作为业务对象的业务状态信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述文本信息的提取方法的文本信息的提取装置。图2是根据本申请实施例的一种可选的文本信息的提取装置的示意图,如图2所示,该装置可以包括:
第一获取模块201,用于使用目标关键词从目标文本数据中获取目标子文本数据,其中,目标子文本数据的最后一个关键词为目标关键词;
提取模块202,用于根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词;
第二获取模块203,用于获取与目标子文本对应的目标文本信息,其中,目标文本信息包含至少一个关联词和目标关键词,目标文本信息用于标识一个业务对象。
作为一种可选实施例,第一获取模块包括:第一获取单元,用于使用目标关键词从目标文本数据中获取多个子文本数据,其中,每个子文本数据的最后一个关键词为目标关键词;得到单元,用于从多个子文本数据中选取一个子文本数据,得到目标子文本数据。
作为一种可选实施例,提取模块包括:第一确定单元,用于对目标子文本中包含的多个参考词进行词性分析,确定每个参考词的词性;提取单元,用于根据每个参考词的词性,从多个参考词中提取出至少一个关联词,其中,每个关联词的词性与目标关键词的词性相同。
作为一种可选实施例,提取单元包括:确定子单元,用于将多个参考词中与目标关键词相邻、且与目标关键词的词性相同的至少一个参考词,确定为至少一个关联词,其中,在关联词为多个的情况下,多个关联词在目标子文本数据中的位置连续。
作为一种可选实施例,确定子单元包括:得到子单元,用于按照由后到前的顺序,从多个参考词中依次选取出一个参考词,作为一个关联词,直到选取出的参考词的词性与目标关键词的词性不同,得到至少一个关联词。
作为一种可选实施例,确定子单元包括:选取子单元,用于按照由前到后的顺序,从多个参考词中依次选取出一个参考词,作为当前参考词;第一确定子单元,用于在当前参考词的词性与目标关键词的词性相同的情况下,将当前参考词确定为一个候选词;删除子单元,用于在当前参考词的词性与目标关键词的词性不同的情况下,删除当前已确定的候选词;第二确定子单元,用于在多个参考词均已被选取的情况下,将当前已确定的至少一个候选词,确定为至少一个关联词。
作为一种可选实施例,该装置还包括:第二获取单元,用于在获取与目标子文本对应的目标文本信息之后,从目标文本信息的上下文信息中,获取候选状态信息,其中,候选状态信息用于描述业务对象的业务状态;匹配单元,用于将候选状态信息与多个参考状态信息进行匹配,其中,参考状态信息是根据业务对象的历史业务状态信息确定的;第二确定单元,用于在候选状态信息与多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,将目标状态信息,确定为业务对象的业务状态信息。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本信息的提取方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图3是根据本申请实施例的一种可选的电子设备的结构框图,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信,其中,
存储器303,用于存储计算机程序;
处理器301,用于执行存储器303上所存放的计算机程序时,实现如下步骤:
S1,使用目标关键词从目标文本数据中获取目标子文本数据,其中,目标子文本数据的最后一个关键词为目标关键词;
S2,根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词;
S3,获取与目标子文本对应的目标文本信息,其中,目标文本信息包含至少一个关联词和目标关键词,目标文本信息用于标识一个业务对象。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图3所示,上述存储器303中可以但不限于包括上述文本信息的提取装置中的第一获取模块201、提取模块202、第二获取模块203。此外,还可以包括但不限于上述文本信息的提取装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子装置还包括:显示器,用于显示文本提取的结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图3所示的结构仅为示意,实施上述文本信息的提取方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图3其并不对上述电子装置的结构造成限定。例如,终端设备还可包括比图3中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图3所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行文本信息的提取方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,使用目标关键词从目标文本数据中获取目标子文本数据,其中,目标子文本数据的最后一个关键词为目标关键词;
S2,根据目标子文本数据包含的词语的词性,从目标子文本数据中提取出与目标关键词具有关联关系的至少一个关联词;
S3,获取与目标子文本对应的目标文本信息,其中,目标文本信息包含至少一个关联词和目标关键词,目标文本信息用于标识一个业务对象。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的文本信息的提取方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例文本信息的提取方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的消费者端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种文本信息的提取方法,其特征在于,所述方法包括:
使用目标关键词从目标文本数据中获取目标子文本数据,其中,所述目标子文本数据的最后一个关键词为所述目标关键词;
根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词;
获取与所述目标子文本对应的目标文本信息,其中,所述目标文本信息包含至少一个所述关联词和所述目标关键词,所述目标文本信息用于标识一个业务对象。
2.根据权利要求1所述的方法,其特征在于,所述使用目标关键词从目标文本数据中获取目标子文本数据包括:
使用所述目标关键词从所述目标文本数据中获取多个子文本数据,其中,每个所述子文本数据的最后一个关键词为所述目标关键词;
从多个所述子文本数据中选取一个子文本数据,得到所述目标子文本数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词包括:
对所述目标子文本中包含的多个参考词进行词性分析,确定每个所述参考词的词性;
根据每个所述参考词的词性,从多个所述参考词中提取出至少一个所述关联词,其中,每个所述关联词的词性与所述目标关键词的词性相同。
4.根据权利要求3所述的方法,其特征在于,所述根据每个所述参考词的词性,从多个所述参考词中提取出至少一个所述关联词包括:
将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词,其中,在所述关联词为多个的情况下,多个所述关联词在所述目标子文本数据中的位置连续。
5.根据权利要求4所述的方法,其特征在于,所述将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词包括:
按照由后到前的顺序,从多个所述参考词中依次选取出一个参考词,作为一个所述关联词,直到选取出的参考词的词性与所述目标关键词的词性不同,得到至少一个所述关联词。
6.根据权利要求4所述的方法,其特征在于,所述将多个所述参考词中与所述目标关键词相邻、且与所述目标关键词的词性相同的至少一个参考词,确定为至少一个所述关联词包括:
按照由前到后的顺序,从多个所述参考词中依次选取出一个参考词,作为当前参考词;
在所述当前参考词的词性与所述目标关键词的词性相同的情况下,将所述当前参考词确定为一个候选词;
在所述当前参考词的词性与所述目标关键词的词性不同的情况下,删除当前已确定的所述候选词;
在多个所述参考词均已被选取的情况下,将当前已确定的至少一个所述候选词,确定为至少一个所述关联词。
7.根据权利要求1至6任一项所述的方法,其特征在于,在获取与所述目标子文本对应的目标文本信息之后,所述方法还包括:
从所述目标文本信息的上下文信息中,获取候选状态信息,其中,所述候选状态信息用于描述所述业务对象的业务状态;
将所述候选状态信息与多个参考状态信息进行匹配,其中,所述参考状态信息是根据所述业务对象的历史业务状态信息确定的;
在所述候选状态信息与所述多个参考状态信息中的目标状态信息的匹配程度大于或者等于匹配阈值的情况下,将所述目标状态信息,确定为所述业务对象的业务状态信息。
8.一种文本信息的提取装置,其特征在于,所述装置包括:
第一获取模块,用于使用目标关键词从目标文本数据中获取目标子文本数据,其中,所述目标子文本数据的最后一个关键词为所述目标关键词;
提取模块,用于根据所述目标子文本数据包含的词语的词性,从所述目标子文本数据中提取出与所述目标关键词具有关联关系的至少一个关联词;
第二获取模块,用于获取与所述目标子文本对应的目标文本信息,其中,所述目标文本信息包含至少一个所述关联词和所述目标关键词,所述目标文本信息用于标识一个业务对象。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的文本信息的提取步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项中所述的文本信息的提取步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041856.3A CN112732893B (zh) | 2021-01-13 | 2021-01-13 | 文本信息的提取方法和装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041856.3A CN112732893B (zh) | 2021-01-13 | 2021-01-13 | 文本信息的提取方法和装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732893A true CN112732893A (zh) | 2021-04-30 |
CN112732893B CN112732893B (zh) | 2024-01-19 |
Family
ID=75592869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110041856.3A Active CN112732893B (zh) | 2021-01-13 | 2021-01-13 | 文本信息的提取方法和装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732893B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095078A (zh) * | 2021-05-08 | 2021-07-09 | 中国工商银行股份有限公司 | 关联资产确定方法、装置和电子设备 |
CN113283238A (zh) * | 2021-05-19 | 2021-08-20 | 上海明略人工智能(集团)有限公司 | 文本数据处理的方法和装置、电子设备和存储介质 |
CN113987374A (zh) * | 2021-10-27 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 词云展示方法、装置、电子设备、介质及产品 |
CN115794756A (zh) * | 2022-11-08 | 2023-03-14 | 珠海芯聚科技有限公司 | 一种仿真文件的压缩方法及装置、设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN110457672A (zh) * | 2019-06-25 | 2019-11-15 | 平安科技(深圳)有限公司 | 关键词确定方法、装置、电子设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN111460099A (zh) * | 2020-03-30 | 2020-07-28 | 招商局金融科技有限公司 | 关键词提取方法、装置及存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
-
2021
- 2021-01-13 CN CN202110041856.3A patent/CN112732893B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN110457672A (zh) * | 2019-06-25 | 2019-11-15 | 平安科技(深圳)有限公司 | 关键词确定方法、装置、电子设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111460099A (zh) * | 2020-03-30 | 2020-07-28 | 招商局金融科技有限公司 | 关键词提取方法、装置及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095078A (zh) * | 2021-05-08 | 2021-07-09 | 中国工商银行股份有限公司 | 关联资产确定方法、装置和电子设备 |
CN113283238A (zh) * | 2021-05-19 | 2021-08-20 | 上海明略人工智能(集团)有限公司 | 文本数据处理的方法和装置、电子设备和存储介质 |
CN113283238B (zh) * | 2021-05-19 | 2023-12-22 | 上海明略人工智能(集团)有限公司 | 文本数据处理的方法和装置、电子设备和存储介质 |
CN113987374A (zh) * | 2021-10-27 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 词云展示方法、装置、电子设备、介质及产品 |
CN115794756A (zh) * | 2022-11-08 | 2023-03-14 | 珠海芯聚科技有限公司 | 一种仿真文件的压缩方法及装置、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112732893B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732893B (zh) | 文本信息的提取方法和装置、存储介质和电子设备 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
US9772991B2 (en) | Text extraction | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
US9147109B2 (en) | Method for adding business card information into contact list | |
CN113379398B (zh) | 一种项目需求的生成方法、装置、电子设备及存储介质 | |
CN111552767A (zh) | 搜索方法、搜索装置以及计算机设备 | |
CN115687655A (zh) | 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质 | |
CN112765364A (zh) | 群聊会话排序方法、装置、存储介质和电子设备 | |
CN106899755B (zh) | 信息分享方法、信息分享装置及终端 | |
CN112800209A (zh) | 会话语料推荐方法、装置、存储介质和电子设备 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN112861005A (zh) | 用于信息推送的方法及装置、设备 | |
CN111914548A (zh) | 一种单据智能填充方法、系统及相关设备 | |
CN116303937A (zh) | 回复方法、装置、电子设备及可读存储介质 | |
CN111858994A (zh) | 文字检索方法和装置 | |
CN109299439B (zh) | 数字提取方法和装置、存储介质及电子装置 | |
CN111931479A (zh) | 基于合同纠纷判决书的信息抽取方法及装置 | |
CN113065025A (zh) | 视频查重方法、装置、设备及存储介质 | |
CN111178072A (zh) | 一种法律条文的确定方法、装置及存储介质 | |
CN112015773A (zh) | 知识库的检索方法、装置、电子设备以及存储介质 | |
CN111177340A (zh) | 家谱问卷的生成方法及装置、家谱问卷的处理方法及装置 | |
CN109344132B (zh) | 用户信息的合并方法、计算机可读存储介质及终端设备 | |
CN113947075A (zh) | 一种服务技能培训方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |