CN110990532A - 一种处理文本的方法和装置 - Google Patents

一种处理文本的方法和装置 Download PDF

Info

Publication number
CN110990532A
CN110990532A CN201911193902.0A CN201911193902A CN110990532A CN 110990532 A CN110990532 A CN 110990532A CN 201911193902 A CN201911193902 A CN 201911193902A CN 110990532 A CN110990532 A CN 110990532A
Authority
CN
China
Prior art keywords
text
words
word
module
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911193902.0A
Other languages
English (en)
Inventor
严洁
张静
王鹏晴
栾英英
童楚婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201911193902.0A priority Critical patent/CN110990532A/zh
Publication of CN110990532A publication Critical patent/CN110990532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种处理文本的方法和装置,涉及数据处理领域,能够提高搜索的准确率和召回率,提升用户的使用体验。该方法包括:首先,输入模块获取用户的输入文本,由词法分析模块对用户的输入文本进行词法分析处理生成第一文本后,改写模块根据关键词模型和第一文本确定第一文本的关键词,以及根据同义词表和第一文本的关键词确定第一文本的关键词的同义词,之后改写模块再根据第一文本的关键词的同义词生成第二文本,最后输出模块根据第二文本确定搜索结果。

Description

一种处理文本的方法和装置
技术领域
本发明涉及数据处理领域,尤其涉及一种处理文本的方法和装置。
背景技术
手机银行是指以移动终端为载体,实现客户与银行的对接,为客户办理相关银行业务或提供金融服务的产品。手机银行也可以称为移动银行,是银行实现电子化的一种渠道。搜索功能是手机银行的一项基本功能,用于快速的帮用户找到其需要的业务或产品。
传统技术中,手机银行的搜索功能是基于用户的输入文本进行关键词匹配,反馈用户的输入文本对应的搜索结果。由于手机银行提供的金融业务或产品的名称具有极强的专业性,导致用户输入的内容与金融业务或产品的名称的专业表述之间存在很大的差异。因此采用传统搜索方式的手机银行返回给用户的信息并不准确,用户很难搜索到自己需要的金融业务。因此,用户利用手机银行的搜索功能搜索到的搜索结果的准确率和召回率较低,搜索质量较低,用户使用手机银行的用户体验较差。
发明内容
本发明的实施例提供一种处理文本的方法和装置,能够提高搜索质量,提升用户使用手机银行的用户体验。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种处理文本的方法,该方法应用于文本处理装置,该装置包括输入模块、词法分析模块、改写模块和输出模块,其中,输入模块与词法分析模块连接,词法分析模块与改写模块连接,改写模块与输出模块连接。所述方法包括:首先,输入模块获取用户的输入文本,由词法分析模块对用户的输入文本进行词法分析处理生成第一文本后,改写模块根据关键词模型和第一文本确定第一文本的关键词,以及根据同义词表和第一文本的关键词确定第一文本的关键词的同义词,之后改写模块再根据第一文本的关键词的同义词生成第二文本,最后输出模块根据第二文本确定搜索结果。
本发明实施例提供的技术方案,通过将用户的输入文本中的关键词替换为关键词的同义词,将关键词的同义词作为输出模块的搜索词,根据关键词的同义词进行搜索并反馈用户的输入文本的搜索结果,从而,避免由于关键词过于口语化导致搜索结果不准确的问题,以及由于关键词过于口语化导致输出模块确定的搜索结果较少的问题,提高了搜索的准确率和召回率,进而有效的提高了搜索质量,提升了用户使用手机银行的使用体验。
第二方面,提供一种文本处理装置,包括:输入模块、词法分析模块、改写模块和输出模块。其中,输入模块与词法分析模块连接,词法分析模块与改写模块连接,改写模块与输出模块连接。输入模块用于获取用户的输入文本,词法分析模块用于对输入模块获取的用户的输入文本进行词法分析处理生成第一文本,改写模块用于根据关键词模型和词法分析模块生成的第一文本确定第一文本的关键词、根据同义词表和词法分析模块生成的第一文本的关键词确定第一文本的关键词的同义词,改写模块还用于根据第一文本的关键词的同义词生成第二文本,输出模块用于根据第二文本确定搜索结果。
第三方面,提供一种文本处理装置,其特征在于,包括存储器、处理器、总线和通信接口;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当文本处理装置运行时,处理器执行存储器存储的计算机执行指令,以使文本处理装置执行如第一方面的处理文本的方法。
第四方面,提供一种计算机可读存储介质,其特征在于,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如第一方面的处理文本的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的一种文本处理装置的逻辑架构示意图;
图1b为本发明实施例提供的另一种文本处理装置的逻辑架构示意图;
图2为本发明实施例提供的一种处理文本的方法的流程示意图;
图3为本发明实施例提供的另一种处理文本的方法的流程示意图;
图4为本发明实施例提供的再一种处理文本的方法的流程示意图;
图5为本发明实施例提供的手机银行搜索界面的示意图;
图6为本发明实施例提供的再一种处理文本的方法的流程示意图;
图7为本发明实施例提供的再一种处理文本的方法的流程示意图;
图8为本发明实施例提供的一种搜索结果的示意图;
图9为本发明实施例提供的另一种文本处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
还需要说明的是,本发明实施例中,“的(英文:of)”,“相应的(英文:corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
首先,解释两个描述搜索质量的名词,准确率和召回率。
准确率为搜索出的有用信息条数与搜索出的全部信息条数的比值,衡量的是搜索系统的查准率。
召回率为搜索出的有用信息条数与信息总数的比值,衡量的是搜索系统的查全率。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图1a示出了一种文本处理装置10的逻辑架构示意图,该装置包括:输入模块11、词法分析模块12、改写模块13和输出模块14。
其中,输入模块11分别与词法分析模块12和改写模块13连接,词法分析模块12与改写模块13连接,改写模块13与输出模块14连接。
输入模块11用于获取用户的输入文本、搜索日志和同义词表。所述搜索日志包括历史搜索词和对历史搜索词改写后的词语。在一些实施例中,输入模块11可以从互联网上获取同义词表。
词法分析模块12用于对输入模块11获取的用户的输入文本进行词法分析处理,生成第一文本,第一文本包括至少一个词语。词法分析处理包括基础切词、自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种。
改写模块13用于根据关键词模型和词法分析模块12生成的第一文本,确定第一文本的关键词,关键词模型用于提取第一文本中的关键词。
改写模块13,还用于根据输入模块11获取的同义词表和第一文本的关键词,确定第一文本的关键词的同义词,同义词表包含多组同义词。
改写模块13,还用于根据关键词的同义词生成第二文本,第二文本包括关键词的同义词。
输出模块14用于根据改写模块13生成的第二文本确定搜索结果,搜索结果为用户输入的输入文本的结果。
可选的,词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,自定义切词指根据专名词典将用户的输入文本切分成具有完整语义的词语序列,词性标注用于识别并标注词语的词性,命名实体识别用于识别并标识用户的输入文本中用于表述实体的词语,词归一化用于将用户的输入文本中同类型的词改写为相同的表述形式,停用词过滤用于去除没有语义的词。
可选的,改写模块13具体用于:将词法分析模块12生成的第一文本输入关键词模型,得到第一文本的关键词。
可选的,改写模块13具体用于:判断同义词表中是否涵盖有关键词;若同义词表中涵盖有关键词,则将同义词表中关键词的至少一个同义词确定为关键词的同义词。
可选的,改写模块13还用于:根据语义计算模型计算关键词的语义值;将聚类词表中与关键词的语义值相等的词语确定为关键词的同义词,聚类词表包含词语与语义值的对应关系。
可选的,改写模块13还用于:判断关联词表是否涵盖关键词,关联词表包含多组紧密度大于第一阈值的关联词组,紧密度用于表示关联词组内部词语间的关联程度;若关联词表涵盖关键词,则确定关联词表中涵盖关键词的目标关联词组,并将目标关联词组中除关键词之外的其他词语确定为关键词的关联词。
可选的,改写模块13具体用于:根据关键词的同义词和关键词的关联词生成第二文本。
可选的,输入模块11,还用于获取历史搜索词。
词法分析模块12,还用于对输入模块11获取的历史搜索词进行基础切词,得到N个基础词,N为正整数,基础切词用于将历史搜索词切分成具有完整语义的词语序列。
词法分析模块12,还用于对N个基础词进行词聚合分析,得到K个聚合词,第i个聚合词包括Mi个基础词,Mi、K为正整数且K≤N,Mi≤N;
词法分析模块12,还用于获取K个聚合词中每个聚合词的点互信息值,点互信息值用于指示聚合词包含的基础词之间的紧密度。
词法分析模块12,还用于将K个聚合词中点互信息值大于第二阈值的聚合词确定为专业术语。
词法分析模块12,还用于根据专业术语,生成专名词典,专名词典包括专业术语。
可选的,词法分析模块12,还用于对输入模块11获取的历史搜索词,进行词法分析处理,生成第三文本,词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,自定义切词指根据专名词典将输入模块11获取的历史搜索词切分成具有完整语义的词语序列,词性标注用于识别并标注词语的词性,命名实体识别用于识别并标识输入模块11获取的历史搜索词中用于表述实体的词语,词归一化用于将输入模块11获取的历史搜索词中同类型的词改写为相同的表述形式,停用词过滤用于去除没有语义的词;
在一些实施例中,由于在实时处理用户的输入文本之前,还需要确定关键词模型、语义计算模型、聚类词表和关联词表。因此,如图1b所示,装置还包括构建模块15。构建模块15分别与输入模块11、词法分析模块12和改写模块13连接。构建模块15用于根据词法分析模块12生成的第三文本确定关键词模型、语义计算模型、聚类词表和关联词表。第三文本是词法分析模块12对历史搜索词进行词法分析处理得到的。历史搜索词可以是词法分析模块12从搜索日志获取到的。
可选的,构建模块15具体用于:根据输入模块11获取的搜索日志训练关键词模型。
示例的,构建模块15具体用于:根据词法分析模块12生成的第三文本训练关键词模型。在一些实施例中,根据词法分析模块12生成的第三文本和对第三文本的改写后的词语训练关键词模型。
构建模块15具体用于:根据词法分析模块12生成的第三文本训练语义计算模型。
可选的,构建模块15具体用于:根据语义计算模型计算词法分析模块12生成的第三文本的语义值;将语义值相同的词法分析模块12生成的第三文本归为一类,生成聚类词表。
可选的,构建模块15具体用于:计算词法分析模块12生成的第三文本内的词语间的紧密度;将词法分析模块12生成的第三文本中紧密度大于第一阈值的词语确定为一组关联词,生成关联词表。
上述各个模块可以集成在一个模块中,也可以各个模块单独存在,也可以两个或两个以上模块集成在一个模块中。上述的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
在一些实施例中,上述文本处理系统10中的各模块可以全部位于运行手机银行的终端中,也可以只有输入模块11位于运行手机银行的终端中,其他模块位于手机银行的后台系统中,本申请不予限定。若只有输入模块11位于运行手机银行的终端中,则输入模块11通过无线或有线网络与其他模块通信连接。
可以理解的是,本申请实施例示意的结构并不构成对文本处理系统10的具体限定。在本申请另一些实施例中,文本处理系统可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
为了解决传统技术中用户利用手机银行的搜索功能搜索到的搜索结果的准确率和召回率较低的问题,本申请实施例提供一种处理文本的方法,根据同义词表将用户输入文本的关键词替换为同义词,并确定同义词的搜索结果。由于同义词是对关键词的规范化改写,因此,将关键词替换为同义词不仅能够避免口语化的关键词对搜索结果准确率的影响,还能够避免由于关键词过于口语化导致输出模块确定的搜索结果较少的问题,有效地提高了搜索结果的准确率和召回率。
在对用户的输入文本进行改写之前,先确定关键词模型、语义计算模型、聚类词表和关联词表。如图2所示,本申请实施例提供的处理文本的方法包括S201-S213:
S201、输入模块获取历史搜索词。
在一些实施例中,手机银行的数据库中存储有搜索日志,搜索日志记载着历次搜索中用户输入的输入文本。历史搜索词即为历次搜索中用户输入的输入文本。可以由输入模块从手机银行的搜索日志中获取历史搜索词。
S202、输入模块将历史搜索词发送至词法分析模块。
S203、词法分析模块对历史搜索词进行基础切词,得到N个基础词。
词法分析模块接收来自输入模块的历史搜索词后,对历史搜索词进行基础切词,得到N个基础词,其中,N为正整数。基础切词用于将历史搜索词切分成具有完整语义的词语序列。词语序列中的词语为该文本的基础词。示例性的,假设用户的输入文本为“我需要转账”,则该文本进行基础切词后可以得到由“我”、“需要”、“转账”3个连续的具有完整语义的基础词构成的词语序列。基础切词可通过ansj分词工具或者jieba分词工具实现。
ansj分词工具是基于语义模型和条件随机场模型实现的中文分词工具。能够对中文文本进行分词,识别中文姓名,且支持用户自定义词典。
jieba分词能够根据字典树结构实现高效的词图扫描,生成文本中汉字构成的有向无环图,再采用记忆化搜索实现最大概率路径的计算,找出基于词频的最大切分组合。jieba分词工具也支持用户自定义词典。
本发明实施例不对分词工具进行限定,只要能将历史搜索词切分为基础词即可。
在一些实例中,历史搜索词只包涵一个词语,此时不对该历史搜索词进行切分。
在另一些实例中,历史搜索词包涵多个词语,此时可以对历史搜索词进行切分得到多个基础词。
可选的,上述得到的N个基础词可以是连续的,即基础词的排列顺序与基础词在历史搜索词中的顺序相同。另外,每个基础词均具有最小独立语义,即基础词可以是承载语义的最小单元。
S204、词法分析模块对N个基础词进行词聚合分析,得到K个聚合词。
其中,K个聚合词中每个聚合词包括至少两个基础词,至少两个基础词在历史搜索词中是相邻的,或连续的,例如,对历史搜索词“高收益理财产品”进行基础切词后得到3个基础词分别为“高收益”、“理财”和“产品”,对3个基础词进行词聚合分析后得到“理财产品”这一聚合词,该聚合词包括“理财”和“收益”两个相邻的基础词。
每个聚合词包括的基础词的个数可以相同也可以不同。在一种可选的描述中,第i个聚合词包括Mi个基础词,Mi、K为正整数且K≤N,Mi≤N。
聚合词由基础词组成。在一些实施例中,可以根据词聚合模型对基础词进行词聚合分析。词聚合模型可以是N-Gram模型。该模型基于一种假设,假设一个词语集合中,第N个词的出现只与前N-1个词相关,因此整个词语集合出现的概率就等于各个词出现的概率的乘积。
N-Gram常用于挖掘大粒度的聚合词,N对应聚合词的粒度,即聚合词中有N个基础词。例如“滨海合作银行”由基础词“滨海”、“合作”和“银行”组成,则聚合词“滨海合作银行”的粒度N为3。“滨海合作银行”出现的概率可以通过直接统计历史搜索词中“滨海”、“合作”和“银行”同时相邻出现的概率获得。例如,常用的N-Gram可以是二元的Bi-Gram或三元的Tri-Gram,主要由组成聚合词的基础词的数量决定,即粒度N决定。
S205、词法分析模块获取K个聚合词中每个聚合词的点互信息值。
其中,聚合词的点互信息值用于指示聚合词包含的基础词之间的紧密度。紧密度用于表示多个词语同时出现的概率大小,紧密度越大,多个词语同时出现的概率越大。
聚合词的点互信息可以反映聚合词内部基础词间联系的紧密度。具体的,以粒度为2的聚合词为例,点互信息计算公式为:
Figure BDA0002294239360000091
x和y为聚合词中的基础词,PMI(x;y)为聚合词的点互信息,p(x)为历史搜索词中x出现的概率,p(y)为历史搜索词中y出现的概率,p(x,y)为历史搜索词中x和y同时出现的概率。
S206、词法分析模块将K个聚合词中点互信息值大于第二阈值的聚合词确定为专业术语。
其中,第二阈值可根据实际情况设定。若聚合词的点互信息大于第二阈值,说明x和y组成的聚合词是有意义的,并且经常被使用。因此可以将x和y组成的聚合词确定为专业术语;若x和y组成的聚合词小于等于第一阈值,则x和y出现在一起的概率较低,x和y组成的词不具有意义,不将该聚合词确定为专业术语。例如,上述S205中,当“滨海合作银行”的点互信息大于第二阈值时,将“滨海合作银行”确定为专业术语。
S207、词法分析模块根据专业术语生成专名词典。
专名词典包括专业术语。可选的,随着搜索历史的不断更新,更新专名词典,将新确定出的专业术语添加到专名词典。
S208、词法分析模块对历史搜索词进行词法分析处理,得到第三文本。
其中,词法分析处理包括自定义切词、词性标注、实体识别、词归一化和停用词过滤中至少一种。
自定义切词指在将历史搜索词切分成具有完整语义的词语序列时,不对文本中出现在专名词典中的专业术语进行切分。自定义切词使用的分词工具可以与基础切词相同。举例来说,假设历史搜索词中有“预计七日年化收益”,对其进行基础切词可将其切分成“预计”、“七日”和“年化收益”,假设“七日年化收益”是专名词典中的专业术语,则在对“预计七日年化收益”进行自定义切词时,可以不切分“七日年化收益”,最终“预计七日年化收益”的自定义切词结果为“预计”和“七日年化收益”。
词性标注用于识别并标注词语的词性。词性包括动词、形容词、名词等。
命名实体识别用于识别并标识历史搜索词中用于表述实体的词语,具体的,命名实体主要是识别出历史搜索词中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。
示例的,时间类的词语,如:一年、半年;机构名,如:银行、支行;地名,如:北京、上海;货币,如:美金、欧元等。在识别到这些词语后,标注这些词语所属的实体类别,比如时间类、机构类。实体识别是为了在切词的过程中不把一个完整的词语切分开,比如,如果没有对“滨海合作银行”这一词语进行实体标注,则在切词的时候将不会把“中国人民银行”视作一个完整的词语,而是会将其切分为“滨海”、“合作”和“银行”三个词语。
词归一化用于将历史搜索词中同类型的词改写为相同的表述形式,比如把描述时间的词语统一改写为“XX年XX月XX日”的格式,把用于表示数量的阿拉伯数字统一改写为汉字表述,例如将“9个”改写为“九个”。
停用词过滤用于去除历史搜索词中没有语义的词,比如“了”、“的”、“吗”等等。
S209、词法分析模块将第三文本发送至构建模块。
S210、构建模块根据第三文本训练关键词模型。
构建模块接收来自词法分析模块的第三文本后,根据第三文本训练关键词模型。在本发明的一种实施例中,关键词模型可以根据textrank算法得到。textrank算法采用公式(1)表示:
Figure BDA0002294239360000101
其中,WS(Vi)为i词的权重,d为阻尼系数,Vi表示节点i,wji为i、j间的关系紧密度,i、j…k是候选关键词,即第三文本中全部的词语。
根据textrank算法确定关键词的步骤如下所述:
步骤一:构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成,在本发明实施例中,候选关键词即为第三文本中的词语;然后根据候选关键词间的共现关系(共同出现的概率),构造节点集中节点的边,两个节点之间仅当他们对应的候选关键词在长度为K的窗口中共现时存在边。K表示窗口大小,即最多共现K个候选关键词。
步骤二:套用公式(1),迭代传播各节点的权值,直至收敛。
步骤三:对结果中的权值进行倒序排序,筛选出前面的一个或多个候选关键词,确定为关键词。
在一些实施例中,可以利用第三文本和文本处理系统对第三文本改写后获得的第三文本的关键词代入上述公式(1),确定公式(1)中的参数,得到关键词模型。
可选的,搜索日志中还记载有用户输入的历史搜索词对应的第三文本和第三文本经文本处理系统处理后得到的第三文本的关键词。第三文本的关键词可以是文本处理装置中的改写模块对第三文本改写后得到的。第三文本的关键词可以由输入模块从搜索日志中获取。
S211、构建模块根据第三文本训练语义计算模型。
在一些实施例中,采用word2vec模型作为语义计算模型。该模型是一种将词表征为实数值向量的一种算法模型,利用深度学习技术将文本内容的处理简化为低纬稠密向量空间的数值计算,而向量空间上的相似度可以用来表示文本语义上的相似。因此,语义计算模型计算出的词语的语义值本质上是一个向量。
将第三文本的关键词和第三文本的关键词对应的同义词带入word2vec模型,得到模型的参数,将参数再带入word2vec模型,得到训练好的word2vec模型。其中,第三文本的关键词对应的同义词是由输入模块从搜索日志中获取的。
S212、构建模块根据第三文本生成聚类词表。
如图3所示,S212具体包括S2121-S2122:
S2121、构建模块根据语义计算模型计算第三文本中各词语的语义值。
在一些实施例中,构建模块根据word2vec模型确定第三文本中词语的向量值,该向量值即为该词语的语义值。具体的可以参考S211的阐述,不予赘述。
S2122、构建模块将第三文本中语义值相同的词语归为一类,生成聚类词表。
聚类词表包含词语与语义值的对应关系,聚类词表的结构图如表1所示,每一行记载有两个以上语义值相同的词。其中X、Y和Z为不相同的三个语义值。语义值相同的词语即为同义词,将同义词记载在聚类词表中。
表1
Figure BDA0002294239360000121
在一些实施例中,为了扩大同义词的范围,也可以将语义值相近的词语也归为一类,加入聚类词表中,此时,语义值一栏表示的是一个范围,如语义值从X到Y,而不是表示一个具体的语义值。
S213、构建模块根据第三文本生成关联词表。
如图3所示,S213具体包括S2131-S2132:
S2131、构建模块计算所述第三文本内的词语间的紧密度。
根据第三文本内词语间的点互信息,确定第三文本内各个词语间的紧密度。各个词语间的点互信息的计算参考上述S205,此处不予赘述。
S2132、构建模块将第三文本中紧密度大于第一阈值的词语确定为一组关联词,生成关联词表。
在一些实施例中,关联词表的结构如表2所示,每一行记载有两个以上紧密度大于第一阈值的词语,关联词表中每一行为一组关联词组,关联词表包含多组紧密度大于第一阈值的关联词组,紧密度可以用来表示关联词组内部词语间的关联程度。
表2
Figure BDA0002294239360000122
可选的,第一阈值可根据实际情况设置。
可理解的,紧密度越大,说明词语同时出现的概率就越大。由于一组关联词中的词语同时出现的概率较高,因此,关联词可以补充用户输入文本中的遗漏,提高搜索的召回率。
针对图1所示的文本处理系统,本发明实施例提供了一种文本处理方法,用于对用户的输入文本进行改写,以提高搜索结果的准确率和召回率。在这里以终端是手机为例进行说明。
如图4所示,本发明实施例提供的文本处理方法包括S401-S409:
S401、输入模块获取用户的输入文本。
在一些实施例中,用户需要使用手机银行搜索产品或业务时,可以打开如图5所示的手机银行客户端的搜索界面。用户可以直接点击选择下方的快捷入口选择相应的服务或产品,或者当快捷入口没有用户需要的业务或产品时,用户点击搜索框,在搜索框中输入文本检索需要的业务或产品。
输入模块通过检测搜索框中的内容以获取用户的输入文本,或者输入模块根据查询语句提取其中的输入文本,其中,查询语句为系统根据用户在搜索框中输入的文本生成的一条查询指令,示例性的,该查询指令可以为sql语句。
在一些实施例中,输入模块可以对用户在搜索框键入的文本进行一系列预处理操作,包括非法字符滤除、大小写转换、全角半角转换等。
S402、输入模块将用户的输入文本发送至词法分析模块。
S403、词法分析模块对用户的输入文本进行词法分析处理,生成第一文本。
词法分析模块接收来自输入模块的用户的输入文本,对用户的输入文本进行词法分析处理,生成第一文本。词法分析模块生成的第一文本包括至少一个词语。本发明不对构成词语的字数做限制,可以是一个字的词语,也可以是多个字的词语。
词法分析处理包括自定义切词、词性标注、实体识别、词归一化和停用词过滤中至少一种。
自定义切词指在将用户的输入文本切分成具有完整语义的词语序列时,不对文本中出现在专名词典中的专业术语进行切分。自定义切词使用的分词工具可以与基础切词相同。
词性标注用于识别并标注词语的词性。词性包括动词、形容词、名词等。
命名实体识别用于识别并标识用户的输入文本中用于表述实体的词语,具体的,命名实体主要是识别出历史搜索词中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。
词归一化用于将用户的输入文本中同类型的词改写为相同的表述形式,比如把描述时间的词语统一改写为“XX年XX月XX日”的格式。
停用词过滤用于去除历史搜索词中没有语义的词,比如“了”、“的”、“吗”等等。
S404、词法分析模块将第一文本发送至改写模块。
S405、改写模块根据关键词模型和第一文本,确定第一文本的关键词。
在一些实施例中,改写模块接收来自词法分析模块的第一文本,第一文本可以是关键词模型的输入参数,改写模块将第一文本输入至关键词模型,得到第一文本的关键词,第一文本的关键词可以是关键词模型的输出参数。
确定出第一文本的关键词后,对第一文本做省略分析,即将第一文本中除关键词之外的词滤除,以进一步明确用户的需求,减少后续策略执行过程中的干扰和复杂度。
需要说明的是,关键词模型为改写模块从构建模块获取的训练好的关键词模型。在一些实施例中,可以由构建模块将关键词模型训练好后发送至改写模块,也可以由改写模块定期从构建模块抓取最新的训练好的关键词模型。
S406、改写模块根据同义词表和第一文本的关键词,确定第一文本的关键词的同义词。
其中,同义词表内包含有多组同义词。同义词表结构如表3所示,每一行记载有多个同义词,同义词表可以是互联网上的开源同义词表,由输入模块获取并发送至改写模块,输入模块定期或者不定期的从互联网上获取最新的同义词表并发送给改写模块。
表3
Figure BDA0002294239360000141
如图6所示,确定第一文本的关键词的同义词具体包括S4061-S4063:
S4061、改写模块判断同义词表中是否涵盖有第一文本的关键词。
若同义词表中涵盖有第一文本的关键词,则执行S4062;
若同义词表中没有涵盖第一文本的关键词,则执行S4063-S4064。
S4062、改写模块将同义词表中第一文本的关键词的至少一个同义词确定为第一文本的关键词的同义词。
S4063、改写模块根据语义计算模型计算第一文本的关键词的语义值。
改写模块将第一文本的关键词代入语义计算模型,得到第一文本的关键词的语义值。
其中,语义计算模型为改写模块从构建模块获取的训练好的语义计算模型。在一些实施例中,可以由构建模块将语义计算模型训练好后发送至改写模块,也可以由改写模块定期从构建模块抓取最新的训练好的语义计算模型。
S4064、改写模块将聚类词表中与第一文本的关键词的语义值相等的词语确定为第一文本的关键词的同义词。
在一些实施例中,改写模块可以先判断聚类词表中是否涵盖第一文本的关键词的语义值,若聚类词表中涵盖第一文本的关键词的语义值,将聚类词表中与第一文本的关键词的语义值相等的语义值对应的词语确定为第一文本的关键词的同义词。
示例性的,如表1所示,当第一文本的关键词的语义值是Y,则将“收益”、“获益”和“收获”确定为第一文本的关键词的同义词。
在一些实施例中,有时为了尽量多的获取第一文本的关键词的同义词,以扩大用户搜索召回的范围,还可以将聚类词表中与第一文本的关键词的语义值相差在一定范围内的词语确定为第一文本的关键词的同义词。其中,相差的范围可根据实际情况确定。
S407、改写模块根据第一文本的关键词的同义词生成第二文本。
其中,第二文本中包括第一文本的关键词的同义词。
S408、改写模块将第二文本发送至输出模块。
S409、输出模块根据第二文本确定搜索结果。
输出模块根据第二文本进行搜索并返回搜索结果。
为了进一步的提高搜索的召回率和准确率,在本发明的一种实施例中,如图7所示,在确定第一文本的关键词之后,处理文本的方法还包括S701-S704:
S701、改写模块判断关联词表是否涵盖第一文本的关键词。
若关联词表涵盖第一文本的关键词,则执行S702-S704。
若关联词表不涵盖第一文本的关键词,则执行上述的S407。
S702、改写模块确定关联词表中涵盖第一文本的关键词的目标关联词组。
可理解的,目标关联词组为涵盖第一文本的关键词的关联词组。
S703、改写模块将目标关联词组中除第一文本的关键词之外的其他词语确定为第一文本的关键词的关联词。
示例性的,表2中,假设序号为1的关联词组为目标关联词组,关键词是“收益”,则将序号为1的目标关联词组中除“收益”之外的“年化”和“预期”等其他词语确定为第一文本的关键词的关联词。
S704、改写模块根据第一文本的关键词的同义词和第一文本的关键词的关联词生成第二文本。
由于关联词是与第一文本的关键词同时出现在同一文本中频率比较高的词,将第一文本的关键词的同义词作为搜索引擎的搜索依据,能够有效地提高召回率。
本发明实施例提供一种处理文本的方法,以第一文本的关键词的同义词用作搜索引擎搜索的依据,避免了用户输入的内容过于口语化导致搜索结果不准确的问题。例如,假设用户输入文本的第一文本的关键词是“转钱”,“转钱”过于口语化,搜索引擎很难搜索到与之匹配的产品或服务,但是“转钱”的同义词“转账”则是专业的表述,将“转钱”改写为“转钱”的同义词“转账”,根据“转账”能够搜索到与之匹配的产品或服务。并且由于“转钱”是口语化的描述,能够搜索到的结果很少,改用专业性的描述“转账”搜索到与之匹配的产品或服务,则搜索结果更丰富些。因此,本发明用同义词替换第一文本的关键词作为搜索引擎搜索的依据,提高了搜索结果的准确率和召回率。本发明还可以第一文本的关键词的关联词对第一文本的关键词进行补充,避免了搜索结果的不全面,例如,假设用户输入的文本是“收益”,但是“收益”往往和“年化”一同出现,如果输出模块只以“收益”进行搜索的话,搜索结果不全面,因此,进一步地根据第一文本的关键词的关联词对第一文本的关键词进行扩充,提高了搜索结果的召回率。因而本发明能够提高搜索的质量,提升用户使用手机银行的用户体验。
示例的,如图8中的(a)所示,手机显示手机银行搜索界面,用户在手机银行搜索界面的搜索框中输入“转钱”,根据本发明实施例提供的处理文本的方法对“转钱”进行改写后得到“转账”的搜索结果。如图8中的(b)所示,手机显示“转账”的搜索结果的界面。
参照图9所示,本发明实施例还提供一种文本处理装置,包括存储器91、处理器92、总线93和通信接口94;存储器91用于存储计算机执行指令,处理器92与存储器91通过总线93连接;当文本处理装置运行时,处理器92执行存储器91存储的计算机执行指令,以使文本处理装置执行如上述实施例提供的处理文本的方法。
在具体的实现中,作为一种实施例,处理器92(92-1和92-2)可以包括一个或多个CPU,例如图9中所示的CPU0和CPU1。且作为一种实施例,文本处理装置可以包括多个处理器92,例如图9中所示的处理器92-1和处理器92-2。这些处理器92中的每一个CPU可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器92可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在一些实施例中,处理器92可以执行词法分析输入模块11、词法分析模块12、改写模块13和输出模块14的功能,具体的可以参考上述各实施例的阐述,不予赘述。例如,输入模块11可以执行S201-S202和S401-S402,词法分析模块12可以执行S203-S209和S403-S404,改写模块13可以执行S405-S408,输出模块可以执行S409。
在一些实施例中,处理器还可以执行构建模块15的功能,具体的可以参考上述各实施例的阐述,不予赘述。例如,构建模块15执行的是S210-S213。
存储器91可以是只读存储器91(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器91可以是独立存在,通过总线93与处理器92相连接。存储器91也可以和处理器92集成在一起。
在具体的实现中,存储器91,用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器92可以通过运行或执行存储在存储器91内的软件程序,以及调用存储在存储器91内的数据,文本处理装置的各种功能。
在本文中,存储器用于存储执行本申请方案的软件程序,还存储有关键词模型、语义计算模型、聚类词表、关联词表和同义词表,还存储有软件程序用到的数据,例如,历史搜索词、第三文本、用户的输入文本、第一文本和第二文本。
通信接口94,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如控制系统、无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。通信接口94可以包括接收单元实现接收功能,以及发送单元实现发送功能。
在本文中,通信接口94用于接收和传送数据,例如,数据包括历史搜索词、第三文本、用户的输入文本、第一文本和第二文本。
总线93,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线93可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行上述实施例提供的处理文本的方法。
本发明实施例还提供一种计算机程序,该计算机程序可直接加载到存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述实施例提供的处理文本的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (28)

1.一种处理文本的方法,其特征在于,包括:
获取用户的输入文本;
对所述用户的输入文本进行词法分析处理,生成第一文本,所述第一文本包括至少一个词语;
根据关键词模型和所述第一文本,确定所述第一文本的关键词,所述关键词模型用于提取所述第一文本中的关键词;
根据同义词表和所述关键词,确定所述关键词的同义词,所述同义词表包含多组同义词;
根据所述关键词的同义词生成第二文本,所述第二文本包括所述关键词的同义词;
根据第二文本确定搜索结果,所述搜索结果为用户输入的输入文本的结果。
2.根据权利要求1所述的处理文本的方法,其特征在于,所述词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,所述自定义切词指根据专名词典将所述用户的输入文本切分成具有完整语义的词语序列,所述词性标注用于识别并标注词语的词性,所述命名实体识别用于识别并标识所述用户的输入文本中用于表述实体的词语,所述词归一化用于将所述用户的输入文本中同类型的词改写为相同的表述形式,所述停用词过滤用于去除没有语义的词。
3.根据权利要求2所述的处理文本的方法,其特征在于,所述根据关键词模型和所述第一文本,确定所述第一文本的关键词具体包括:
将所述第一文本输入所述关键词模型,得到所述第一文本的关键词。
4.根据权利要求3所述的处理文本的方法,其特征在于,根据同义词表和所述关键词,确定所述关键词的同义词具体包括:
判断所述同义词表中是否涵盖有所述关键词;
若所述同义词表中涵盖有所述关键词,则将同义词表中所述关键词的至少一个同义词确定为所述关键词的同义词。
5.根据权利要求4所述的处理文本的方法,其特征在于,若所述同义词表中没有涵盖所述关键词,所述方法还包括:
根据语义计算模型计算所述关键词的语义值;
将聚类词表中与所述关键词的语义值相等的词语确定为所述关键词的同义词,所述聚类词表包含词语与语义值的对应关系。
6.根据权利要求1-5中任一项所述的处理文本的方法,其特征在于,所述方法还包括:
判断关联词表是否涵盖所述关键词,所述关联词表包含多组紧密度大于第一阈值的关联词组,所述紧密度用于表示所述关联词组内部词语间的关联程度;
若所述关联词表涵盖所述关键词,则确定关联词表中涵盖所述关键词的目标关联词组,并将所述目标关联词组中除所述关键词之外的其他词语确定为所述关键词的关联词。
7.根据权利要求6所述的处理文本的方法,其特征在于,所述根据所述关键词的同义词生成第二文本,包括:
根据所述关键词的同义词和所述关键词的关联词生成所述第二文本。
8.根据权利要求1所述的处理文本的方法,其特征在于,对所述用户的输入文本进行词法分析处理,生成第一文本之前,所述方法还包括:
获取历史搜索词;
对所述历史搜索词进行基础切词,得到N个基础词,N为正整数,所述基础切词用于将所述历史搜索词切分成具有完整语义的词语序列;
对所述N个基础词进行词聚合分析,得到K个聚合词,第i个所述聚合词包括Mi个基础词,Mi、K为正整数且K≤N,Mi≤N;
获取所述K个聚合词中每个聚合词的点互信息值,所述点互信息值用于指示所述聚合词包含的基础词之间的紧密度;
将所述K个聚合词中点互信息值大于第二阈值的所述聚合词确定为专业术语;
根据所述专业术语,生成专名词典,所述专名词典包括所述专业术语。
9.根据权利要求8所述的处理文本的方法,其特征在于,生成所述专名词典后,所述方法还包括:
对所述历史搜索词,进行词法分析处理,生成第三文本,所述词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,所述自定义切词指根据专名词典将所述历史搜索词切分成具有完整语义的词语序列,所述词性标注用于识别并标注词语的词性,所述命名实体识别用于识别并标识所述历史搜索词中用于表述实体的词语,所述词归一化用于将所述历史搜索词中同类型的词改写为相同的表述形式,所述停用词过滤用于去除没有语义的词;
根据所述第三文本确定关键词模型、语义计算模型、聚类词表和关联词表。
10.根据权利要求9所述的处理文本的方法,其特征在于,根据所述第三文本确定关键词模型包括:
根据所述第三文本训练关键词模型。
11.根据权利要求9所述的处理文本的方法,其特征在于,根据所述第三文本确定语义计算模型包括:
根据所述第三文本训练语义计算模型。
12.根据权利要求9所述的处理文本的方法,其特征在于,根据所述第三文本确定聚类词表包括:
根据语义计算模型计算所述第三文本的语义值;
将语义值相同的第三文本归为一类,生成聚类词表。
13.根据权利要求9-12中任一项所述的处理文本的方法,其特征在于,根据所述第三文本确定关联词表包括:
计算所述第三文本内的词语间的紧密度;
将第三文本中紧密度大于第一阈值的词语确定为一组关联词,生成关联词表。
14.一种文本处理装置,其特征在于,包括输入模块、词法分析模块、改写模块和输出模块;
所述输入模块,用于获取用户的输入文本;
所述词法分析模块,用于对所述输入模块获取的所述用户的输入文本进行词法分析处理,生成第一文本,所述第一文本包括至少一个词语;
所述改写模块,用于根据关键词模型和所述词法分析模块生成的所述第一文本,确定所述第一文本的关键词,所述关键词模型用于提取所述第一文本中的关键词;
所述改写模块,还用于根据同义词表和所述关键词,确定所述关键词的同义词,所述同义词表包含多组同义词;
所述改写模块,还用于根据所述关键词的同义词生成第二文本,所述第二文本包括所述关键词的同义词;
所述输出模块,用于根据所述改写模块生成的所述第二文本确定搜索结果,所述搜索结果为用户输入的输入文本的结果。
15.根据权利要求14所述的装置,其特征在于,所述词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,所述自定义切词指根据专名词典将所述用户的输入文本切分成具有完整语义的词语序列,所述词性标注用于识别并标注词语的词性,所述命名实体识别用于识别并标识所述用户的输入文本中用于表述实体的词语,所述词归一化用于将所述用户的输入文本中同类型的词改写为相同的表述形式,所述停用词过滤用于去除没有语义的词。
16.根据权利要求15所述的装置,其特征在于,所述改写模块具体用于:
将所述词法分析模块生成的所述第一文本输入所述关键词模型,得到所述第一文本的关键词。
17.根据权利要求16所述的装置,其特征在于,所述改写模块具体用于:
判断所述同义词表中是否涵盖有所述关键词;
若所述同义词表中涵盖有所述关键词,则将同义词表中所述关键词的至少一个同义词确定为所述关键词的同义词。
18.根据权利要求17所述的装置,其特征在于,所述改写模块还用于:
根据语义计算模型计算所述关键词的语义值;
将聚类词表中与所述关键词的语义值相等的词语确定为所述关键词的同义词,所述聚类词表包含词语与语义值的对应关系。
19.根据权利要求14-18中任一项所述的装置,其特征在于,所述改写模块还用于:
判断关联词表是否涵盖所述关键词,所述关联词表包含多组紧密度大于第一阈值的关联词组,所述紧密度用于表示所述关联词组内部词语间的关联程度;
若所述关联词表涵盖所述关键词,则确定关联词表中涵盖所述关键词的目标关联词组,并将所述目标关联词组中除所述关键词之外的其他词语确定为所述关键词的关联词。
20.根据权利要求19所述的装置,其特征在于,所述改写模块具体用于:
根据所述关键词的同义词和所述关键词的关联词生成所述第二文本。
21.根据权利要求14所述的装置,其特征在于,
所述输入模块,还用于获取历史搜索词;
所述词法分析模块,还用于对所述输入模块获取的所述历史搜索词进行基础切词,得到N个基础词,N为正整数,所述基础切词用于将所述历史搜索词切分成具有完整语义的词语序列;
所述词法分析模块,还用于对所述N个基础词进行词聚合分析,得到K个聚合词,第i个所述聚合词包括Mi个基础词,Mi、K为正整数且K≤N,Mi≤N;
所述词法分析模块,还用于获取所述K个聚合词中每个聚合词的点互信息值,所述点互信息值用于指示所述聚合词包含的基础词之间的紧密度;
所述词法分析模块,还用于将所述K个聚合词中点互信息值大于第二阈值的所述聚合词确定为专业术语;
所述词法分析模块,还用于根据所述专业术语,生成专名词典,所述专名词典包括所述专业术语。
22.根据权利要求21所述的装置,其特征在于,
所述词法分析模块,还用于对所述输入模块获取的所述历史搜索词,进行词法分析处理,生成第三文本,所述词法分析处理包括:自定义切词、词性标注、命名实体识别、词归一化和停用词过滤中至少一种;其中,所述自定义切词指根据专名词典将所述输入模块获取的所述历史搜索词切分成具有完整语义的词语序列,所述词性标注用于识别并标注词语的词性,所述命名实体识别用于识别并标识所述输入模块获取的所述历史搜索词中用于表述实体的词语,所述词归一化用于将所述输入模块获取的所述历史搜索词中同类型的词改写为相同的表述形式,所述停用词过滤用于去除没有语义的词;
所述装置还包括构建模块,其中,
所述构建模块用于根据所述词法分析模块生成的所述第三文本确定关键词模型、语义计算模型、聚类词表和关联词表。
23.根据权利要求22所述的装置,其特征在于,所述构建模块具体用于:
根据所述词法分析模块生成的所述第三文本训练关键词模型。
24.根据权利要求22所述的装置,其特征在于,所述构建模块具体用于:
根据所述词法分析模块生成的所述第三文本训练语义计算模型。
25.根据权利要求22所述的装置,其特征在于,所述构建模块具体用于:
根据语义计算模型计算所述词法分析模块生成的所述第三文本的语义值;
将语义值相同的所述词法分析模块生成的所述第三文本归为一类,生成聚类词表。
26.根据权利要求22-25中任一项所述的装置,其特征在于,所述构建模块具体用于:
计算所述词法分析模块生成的所述第三文本内的词语间的紧密度;
将所述词法分析模块生成的所述第三文本中紧密度大于第一阈值的词语确定为一组关联词,生成关联词表。
27.一种文本处理装置,其特征在于,包括存储器、处理器、总线和通信接口;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接;当所述文本处理装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述文本处理装置执行如权利要求1-13中任一项所述的处理文本的方法。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机执行指令,当所述计算机执行指令在计算机上运行时,使得所述计算机执行如权利要求1-13中任一项所述的处理文本的方法。
CN201911193902.0A 2019-11-28 2019-11-28 一种处理文本的方法和装置 Pending CN110990532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911193902.0A CN110990532A (zh) 2019-11-28 2019-11-28 一种处理文本的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911193902.0A CN110990532A (zh) 2019-11-28 2019-11-28 一种处理文本的方法和装置

Publications (1)

Publication Number Publication Date
CN110990532A true CN110990532A (zh) 2020-04-10

Family

ID=70087900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911193902.0A Pending CN110990532A (zh) 2019-11-28 2019-11-28 一种处理文本的方法和装置

Country Status (1)

Country Link
CN (1) CN110990532A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640025A (zh) * 2020-06-09 2020-09-08 国泰君安证券股份有限公司 基于标签体系实现资讯标签化处理的方法
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置
CN111881669A (zh) * 2020-06-24 2020-11-03 百度在线网络技术(北京)有限公司 同义文本获取方法、装置、电子设备及存储介质
CN112596646A (zh) * 2020-12-21 2021-04-02 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN112749553A (zh) * 2020-06-05 2021-05-04 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
WO2021239114A1 (zh) * 2020-05-29 2021-12-02 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN109522389A (zh) * 2018-11-07 2019-03-26 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN110276010A (zh) * 2019-06-24 2019-09-24 腾讯科技(深圳)有限公司 一种权重模型训练方法和相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN109522389A (zh) * 2018-11-07 2019-03-26 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN110276010A (zh) * 2019-06-24 2019-09-24 腾讯科技(深圳)有限公司 一种权重模型训练方法和相关装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021239114A1 (zh) * 2020-05-29 2021-12-02 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN112749553B (zh) * 2020-06-05 2023-07-25 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN112749553A (zh) * 2020-06-05 2021-05-04 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN111640025A (zh) * 2020-06-09 2020-09-08 国泰君安证券股份有限公司 基于标签体系实现资讯标签化处理的方法
CN111640025B (zh) * 2020-06-09 2023-08-01 国泰君安证券股份有限公司 基于标签体系实现资讯标签化处理的方法
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置
CN111709226B (zh) * 2020-06-18 2023-10-13 中国银行股份有限公司 一种文本处理方法及装置
CN111881669A (zh) * 2020-06-24 2020-11-03 百度在线网络技术(北京)有限公司 同义文本获取方法、装置、电子设备及存储介质
CN112596646A (zh) * 2020-12-21 2021-04-02 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN112596646B (zh) * 2020-12-21 2022-05-20 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN110990532A (zh) 一种处理文本的方法和装置
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20220114340A1 (en) System and method for an automatic search and comparison tool
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110222192A (zh) 语料库建立方法及装置
US20230282018A1 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN112256863A (zh) 一种确定语料意图的方法、装置及电子设备
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和系统
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination