CN109446525A - 文本处理方法、装置、计算机可读存储介质和计算机设备 - Google Patents
文本处理方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN109446525A CN109446525A CN201811257894.7A CN201811257894A CN109446525A CN 109446525 A CN109446525 A CN 109446525A CN 201811257894 A CN201811257894 A CN 201811257894A CN 109446525 A CN109446525 A CN 109446525A
- Authority
- CN
- China
- Prior art keywords
- target
- degree
- correlation
- keyword
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取对目标文本进行分词处理得到的特征词;从各预设类目相对应的语义表达式所包括的关键词中,筛选出与所述特征词匹配的目标关键词;根据各所述目标关键词所属的语义表达式所表达的语义关系,确定各所述目标关键词相对应的语义关系;在预设类目中定位各所述目标关键词所属语义表达式相对应的目标类目;根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度。本申请提供的方案可以提高文本处理的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着计算机技术的发展,越来越多的用户选择在互联网上通过文本进行信息的表达和传递,从而涉及到文本处理的场景越来越多。比如文本信息检索、文本类目标注以及文本分类等等。
然而,传统的文本处理方式,通常是在关键词层级计算文本与目标对象的相关度,而在真实的业务场景下通过传统方式计算得到的相关度往往不能满足需求,也就是说传统的文本处理方式存在准确率低的问题。
发明内容
基于此,有必要针对文本处理准确率低的技术问题,提供一种文本处理方法、装置、计算机可读存储介质和计算机设备。
一种文本处理方法,包括:
获取对目标文本进行分词处理得到的特征词;
从各预设类目相对应的语义表达式所包括的关键词中,筛选出与所述特征词匹配的目标关键词;
根据各所述目标关键词所属的语义表达式所表达的语义关系,确定各所述目标关键词相对应的语义关系;
在预设类目中定位各所述目标关键词所属语义表达式相对应的目标类目;
根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度。
一种文本处理装置,包括:
获取模块,用于获取对目标文本进行分词处理得到的特征词;
筛选模块,用于从各预设类目相对应的语义表达式所包括的关键词中,筛选出与所述特征词匹配的目标关键词;
语义关系确定模块,用于根据各所述目标关键词所属的语义表达式所表达的语义关系,确定各所述目标关键词相对应的语义关系;
定位模块,用于在预设类目中定位各所述目标关键词所属语义表达式相对应的目标类目;
相关度确定模块,用于根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本处理方法的步骤。
上述文本处理方法、装置、计算机可读存储介质和计算机设备,通过既包括关键词又表达语义关系的语义表达式来表述预设类目,这样在对目标文本分词后,与各预设类目的语义表达式所包括的关键词匹配,即可自动找出匹配的目标关键词,并确定各目标关键词相对应的语义关系,继而对各目标关键词所属的目标类目,均可根据该目标类目下的目标关键词相对应的语义关系、及目标关键词与目标文本的相关度来计算该目标类目与目标文本的相关度,这样既在关键词层面匹配又能在语义层面匹配,极大地提高了文本处理的准确率。
附图说明
图1为一个实施例中文本处理方法的流程示意图;
图2为一个实施例中分类目录体系的示意图;
图3为一个实施例中计算目标关键词与目标文本相关度的示意图;
图4为一个实施例中类目层次语义回退的示意图;
图5为一个实施例中文本处理方法中应用步骤的流程示意图;
图6为一个实施例中文本处理方法的逻辑示意图;
图7为一个实施例中文本处理装置的结构框图;
图8为另一个实施例中文本处理装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,在一个实施例中,提供了一种文本处理方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是服务器,也可以是终端。参照图1,该文本处理方法具体包括如下步骤:
S102,获取对目标文本进行分词处理得到的特征词。
其中,目标文本是待进行处理的对象。在本申请各实施例中,对目标文本进行的处理具体可以是计算目标文本与类目的相关度。
分词是将一个连续的字符序列切分成多个单独的字符或者字符序列。特征词是具有语义表达功能的字符或者字符序列。在本申请各实施例中,连续的字符序列具体可以是目标文本。在本申请各实施例中,目标文本可以是长文本也可以是短文本,不对目标文本的长度进行限定。
具体地,计算机设备可采用预设的分词方式对目标文本进行分词处理,得到多个字符或者字符序列,从得到的字符序列中筛选出具有实际语义的字符或者字符序列作为特征词。其中,预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式等。
进一步地,计算机设备从得到的字符或字符序列中筛选出具有实际语义的字符或者字符序列作为特征词时,具体可从得到的字符或字符序列中过滤掉停用词。其中,停用词是自然语言中包括的一种功能字符或者字符序列,这类功能字符或者字符序列并无实际语义,包括代表语气的语气字符或字符序列和表示某种逻辑关系连接字符或字符序列等。具体地,语气字符比如“吗”或者“呢”等,连接字符比如“的”或“在”等,语气字符序列比如“而已”或者“就是了”等,连接字符序列比如“至于”或“然后”等。
S104,从各预设类目相对应的语义表达式所包括的关键词中,筛选出与特征词匹配的目标关键词。
其中,预设类目是预先配置的类目。类目是分类目录体系下的条目。语义表达式是在语义层面反映类目的特征的数据。
本领域技术人员可以理解,每个预设类目均对应存在语义表达式,每个语义表达式均包括有关键词。这样,计算机设备在对目标文本进行分词处理得到的特征词后,可将获得的每个特征词与每个预设类目相对应的语义表达式所包括的关键词进行匹配,以筛选出与目标文本包括的特征词匹配的目标关键词。
举例说明,图2示出了一个实施例中分类目录体系的示意图。参考图2,该分类目录体系为多级分类目录体系,类目之间存在从属层次关系。假设,其中一个类目“电子产品——手机——安卓手机”的语义表达式中包括关键词:“电子”、“手机”和“安卓”;且对目标文本进行分词处理得到的特征词为“手机”,那么,语义表达式中包括的关键词“手机”即为目标关键词。
在一个实施例中,预设类目相对应的语义表达式所包括的关键词,可以是直接从类目名称中提取的词汇。比如直接从类目“老年大码男鞋”中提取“老年”作为其相对应的语义表达式所包括的关键词。
在一个实施例中,预设类目相对应的语义表达式所包括的关键词,还可以是直接从类目名称中提取的词汇的近义词。比如类目“老年大码男鞋”相对应的语义表达式所包括的关键词可以有“老年”和“长辈”。其中“老年”是直接从类目名称中提取的词汇,“长辈”则是“老年”的近义词。
在本申请各实施例中,特征词与关键词的匹配具体可以是语义匹配,在特征词与关键词的相似度大于预设相似度阈值则该关键词即筛选为目标关键词。也就是说,特征词与目标关键词可以是完全相同的词汇,也可以互为近义词。
S106,根据各目标关键词所属的语义表达式所表达的语义关系,确定各目标关键词相对应的语义关系。
可以理解,既然语义表达式是在语义层面反映类目的特征的数据,那么语义表达式需要、也应当能够表达类目的语义。
具体地,计算机设备可为语义表达式所包括的关键词添加语义关系标识,以通过语义关系标识反映关键词与类目的语义关系,进而反映语义表达式所表达的语义关系。
在一个实施例中,语义表达式包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。
其中,正向语义表达式是描述符合类目的语义的表达式。正向语义表达式所包括的关键词为正向关键词,是描述符合类目的语义的词汇。正向语义关系表示符合类目语义。比如“电子产品——手机——安卓手机”这一类目,正向关键词可以是:“安卓”、“手机”以及“电子”等能够描述这一类目核心含义的词汇。计算机设备可以为关键词添加前缀,以表示该关键词为正向关键词。比如,以“+”前缀表示正向关键词,“电子产品——手机——安卓手机”这一类目的正向语义表达式为:“电子+手机+安卓”。
负向语义表达式是描述不符合类目的语义的表达式。负向语义表达式所包括的关键词为负向关键词,是描述不符合类目的语义的词汇。负向语义关系表示不符合类目语义。比如“电子产品——手机——安卓手机”这一类目,负向关键词可以是:“苹果”以及“ios”等与这一类目核心含义相反的词汇。计算机设备可以为关键词添加前缀,以表示该关键词为负向关键词。比如,以“-”前缀表示负向关键词,“电子产品——手机——安卓手机”这一类目的负向语义表达式为:“-苹果-ios”。
当然,每个预设类目也可仅对应一个语义表达式,通过该语义表达式表达关键词与类目的各种语义关系。比如,“电子产品——手机——安卓手机”这一类目的语义表达式可以为:“电子+手机+安卓-苹果-ios”。
在另外的实施例中,计算机设备还可以通过其他方式反映语义表达式所表达的语义关系。本申请实施例对此不作限定。
可以理解,语义表达式所表达的语义关系还可包括限定语义关系和层次递进语义关系等。关于这些语义关系的具体描述可参考后续实施例。
S108,在预设类目中定位各目标关键词所属语义表达式相对应的目标类目。
其中,目标类目是预设类目中的一个或多个类目。可以理解,每个目标关键词均存在所属的语义表达式,每个语义表达时式也存在对应的预设类目。当计算机设备在筛选出与特征词匹配的目标关键词后,可先定位该目标关键词所属的语义表达式,再将该语义表达式所对应的预设类目定位为目标类目。
举例说明,再参考图2,假设对目标文本进行分词处理得到的特征词为“手机”;类目“电子产品”的语义表达式为“电子”;类目“电子产品——手机”的语义表达式为“电子+手机”;类目“电子产品——手机——安卓手机”的语义表达式为“电子+手机+安卓”。显然,目标关键词为“手机”,“手机”属于“电子+手机”和“电子+手机+安卓”这两个语义表达式,则“电子+手机”相对应的类目“电子产品——手机”和“电子+手机+安卓”相对应的类目“电子产品——手机——安卓手机”均为目标类目。
S110,根据各目标关键词相对应的语义关系、及各目标关键词与目标文本的相关度,确定各目标关键词相对应的目标类目与目标文本的相关度。
其中,目标关键词与目标文本的相关度,是将目标关键词与目标文本的相关程度量化后的数值。目标关键词与目标文本的相关度越大,说明目标关键词与目标文本的相关程度越高。
在一个实施例中,在计算目标关键词与目标文本的相关度时,可先计算该目标关键词的关键词出现分、关键词长度分以及关键词逆文本频率指数,再将关键词出现分、关键词长度分以及关键词逆文本频率指数相乘,得到目标关键词与目标文本的相关度。
其中,目标关键词的关键词出现分与目标关键词在目标文本中的出现次数正相关。目标关键词的关键词长度分与目标关键词的词长度正相关。这两者的正相关比例系数均是可以调节的经验参数。计算机设备可通过设置这两个正相关比例系数将关键词出现分和关键词长度分控制在预设数值范围内。目标关键词的关键词逆文本频率指数(InverseDocument Frequency,IDF)则是词汇普遍重要性的度量。
可以理解,目标关键词相对应的目标类目与目标文本的相关度,与该目标关键词与目标文本的相关度相关。而且表示不同语义关系的关键词与目标文本的相关度对该关键词相对应的目标类目与目标文本的相关度的贡献可能不同。
举例说明,对于正向关键词,根据先验知识应当理解正向关键词与目标文本的相关度对正向关键词相对应的目标类目与目标文本的相关度的贡献为正向贡献,也就是说正向关键词与目标文本的相关度会正影响正向关键词相对应的目标类目与目标文本的相关度。而对于负向关键词,同样根据先验知识应当理解负向关键词与目标文本的相关度对负向关键词相对应的目标类目与目标文本的相关度的贡献责为反向贡献,也就是说负向关键词与目标文本的相关度会反向影响负向关键词相对应的目标类目与目标文本的相关度。
具体地,计算机设备可对每个目标类目,计算该目标类目下的各目标关键词与目标文本的相关度,再将这些相关度按照对应的目标关键词相对应的语义关系进行运算,得到该目标类目与目标文本的相关度。也就是说,对一个目标类目下的各目标关键词与目标文本的相关度运算得到该目标类目与目标文本的相关度时,各相关度的运算符号与目标关键词相对应的语义关系有关。
上述文本处理方法,通过既包括关键词又表达语义关系的语义表达式来表述预设类目,这样在对目标文本分词后,与各预设类目的语义表达式所包括的关键词匹配,即可自动找出匹配的目标关键词,并确定各目标关键词相对应的语义关系,继而对各目标关键词所属的目标类目,均可根据该目标类目下的目标关键词相对应的语义关系、及目标关键词与目标文本的相关度来计算该目标类目与目标文本的相关度,这样既在关键词层面匹配又能在语义层面匹配,极大地提高了文本处理的准确率。
在一个实施例中,语义表达式包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。S110包括:确定各目标关键词与目标文本的相关度;将每个目标类目相对应、且对应正向语义关系的目标关键词与目标文本的相关度求和,得到每个目标类目与目标文本的第一相关度;将每个目标类目相对应、且对应负向语义关系的目标关键词与目标文本的相关度求和,得到每个目标类目与目标文本的第二相关度;根据第一相关度与第二相关度的差异,得到每个目标类目与目标文本的相关度。
可以理解,本实施例是对语义表达式包括正向语义表达式和负向语义表达式的情况下的举例说明,语义表达式当然还可包括其他语义表达式。通常情况下,预设类目的语义表达式必然包括正向语义表达式,负向语义表达式和其他语义表达式则根据实际场景中预设类目语义的表达需求可有可无。
在一个实施例中,确定各目标关键词与目标文本的相关度,包括:根据各目标关键词的词长、在目标文本中的出现次数、及逆文本频率指数,计算各目标关键词与目标文本的相关度。
具体地,对于每个目标关键词,计算机设备可确定该目标关键词的词长,根据该词长和词长分系数计算该目标关键词的关键词词长分;确定该目标关键词在目标文本中的出现次数,根据该出现次数和出现分系数计算该目标关键词的关键词出现分;确定该目标关键词的逆文本频率指数。继而,计算机设备可将该目标关键词的关键词词长分、关键词出现分和逆文本频率指数相乘,得到该目标关键词与目标文本的相关度。
举例说明,相关度计算公式为:相关度=关键词出现分*关键词长度分*关键词idf(Inverse Document Frequency,逆文档频率)。其中,关键词出现分可以是“目标关键词在目标文本中的出现次数”与“MN”的比值,MN是可以调节的经验参数。也就是说,关键词出现分的计算公式为:关键词出现分=目标关键词在目标文本中的出现次数/MN。关键词长度分可以是“目标关键词长度”与“ML”的比值,ML是可以调节的经验参数。也就是说,关键词长度分的计算公式为:目标关键词长度/ML。关键词idf:关键词的逆文本频率指数(InverseDocument Frequency)。在实际应用中计算相关度时,关键词出现分和关键词长度分都最高限定为1。
图3示出了一个实施例中计算目标关键词与目标文本相关度的示意图。参考图3,获取对目标文本进行分词处理得到的特征词,从各预设类目相对应的语义表达式所包括的关键词中,筛选出与特征词匹配的目标关键词。对于每个目标关键词计算关键词出现分、关键词长度分以及关键词idf,将关键词词长分、关键词出现分和逆文本频率指数相乘,得到该目标关键词与目标文本的相关度。
在本实施例中,计算关键词与目标文本的相关度时,综合考虑关键词的词长、出现次数和逆文本频率指数多个方面的因素,提高了相关度计算的准确性。
进一步地,计算机设备在确定各目标关键词与目标文本的相关度后,对于每一个目标类目,可将与该目标类目相对应、且对应正向语义关系的目标关键词与目标文本的相关度求和,得到该目标类目与目标文本的第一相关度;并将该目标类目相对应、且对应负向语义关系的目标关键词与目标文本的相关度求和,得到该目标类目与目标文本的第二相关度;再将该目标类目与目标文本的第一相关度,和该目标类目与目标文本的第二相关度求差,得到该目标类目与目标文本的相关度。
本申请实施例中提供的负向语义表达式,在比如“服饰-男鞋-非皮鞋”这种类目,包括“非皮鞋”这种排除式词汇时,可以很好地来表达负向语义。
上述实施例中,既通过正向语义表达式来表达符合类目的语义,又通过负向语义表达式来表达不符合类目的语义,从正反两个方面来在语义层面进行表达,这样在多层语义层面进行匹配,极大地提高了文本处理的准确率。
在一个实施例中,S110包括:当目标类目中存在包括限定语义表达式的第一目标类目时,则对于第一目标类目的限定语义表达式的各限定层,分别计算所包括的目标关键词与目标文本的相关度;当计算得到的各相关度均达到预设相关度阈值时,则根据第一目标类目下的目标关键词相对应的语义关系、及第一目标类目下的目标关键词与目标文本的相关度,计算第一目标类目与目标文本的相关度。
其中,限定语义表达式是描述类目语义中限定关系的表达式。限定语义表达式包括限定关键词。限定关键词用于对关键词进行限定,可以更加精确地表达类目语义。比如,对于“游戏——三国”与“图书——三国”这两个类目,因为两者都有“三国”这个共有关键词,其关键词层面的相关度是很高的。但是从语义上来说,一个是“游戏”,另一个则是“图书”,它们之间的相关度则很低。通过限定语义表达式表述后,即可反映出它们之间在语义层面的相关度。
可以理解,限定关系是并列关系,无先后顺序。比如“广西——旅游”这一类目,限定关键词可以是:“广西”,通过“广西”来对“旅游”进行限定更加精确地表达“广西——旅游”这一类目的语义。计算机设备可以为关键词添加后缀,以表示该关键词为限定关键词。比如,以“&&”后缀表示限定关键词,“广西——旅游”这一类目的限定语义表达式为:“广西&&旅游”。当然,“广西——旅游”这一类目,限定关键词也可以是:“旅游”,通过“旅游”来对“广西”进行限定,限定语义表达式也可为:“旅游&&广西”。
但是,当类目为多层级目录体系中的类目时,由于类目之间存在从属层级关系,此时语义表达式可能需要表示层次递进关系。比如,“广西——旅游”这一类目的上级类目可以是“广西”也可以是“旅游”,不同的上级类目会影响层次递进关系的表述,而层次递进关系的表述则可能会影响到类目回退。具体关于层次递进关系与类目回退的具体描述可参考后续实施例。
需要说明的是,一个限定语义表达式中包括至少两层限定层,每层限定层各自对应有关键词。比如限定语义表达式“广西&&旅游”,包括两层限定层,一层对应关键词“广西”,另一层对应关键词“旅游”。限定,顾名思义,就是至少两个关键词之间相互约束;也就是说,在关键词匹配时,需要在每个限定层都匹配成功,才认为限定语义表达式被满足。
举例说明,目标文本“今年去北京旅游,好开心”,可以从目标文本中提取出特征词“旅游”,且与“广西&&旅游”中的“旅游”匹配。若不要求每个限定层都匹配成功,才认为限定语义表达式被满足,那么此时则可认为目标文本与“广西&&旅游”是相关的。但是,目标文本描述的是去“北京”旅游,而“广西&&旅游”则表述的是“广西”,两者显然不相关。
具体地,当目标类目中存在包括限定语义表达式的第一目标类目时,计算机设备可先查看对于第一目标类目的限定语义表达式的每一层限定层,是否筛选出目标关键词。若存在某一层限定层没有筛选出目标关键词,则认为目标文本与该第一目标类目的限定语义表达式不相符,直接将第一目标类目的限定语义表达式所包括的各关键词与目标文本的相关度设置为零。
若对于第一目标类目的限定语义表达式的每一层限定层都有筛选出目标关键词,计算机设备则认为目标文本与该第一目标类目的限定语义表达式可能相符,继而对于第一目标类目的限定语义表达式的各限定层,分别计算所包括的目标关键词与目标文本的相关度。
当计算得到的各相关度均达到预设相关度阈值时,计算机设备则认为目标文本与该第一目标类目的限定语义表达式相符,继而根据第一目标类目下的目标关键词相对应的语义关系、及第一目标类目下的目标关键词与目标文本的相关度,计算第一目标类目与目标文本的相关度。
当计算得到的各相关度中存在未达到预设相关度阈值的相关度时,计算机设备则认为目标文本与该第一目标类目的限定语义表达式不相符,直接将第一目标类目的限定语义表达式所包括的各关键词与目标文本的相关度设置为零。
在一个实施例中,限定语义表达式的一层限定层中可包括多个关键词。比如“环保&&(设置+装备)”,再比如“(安保+安防+防盗)&&(购买+采购)”。那么,对于每一层限定层,只要筛选出一个目标关键词与目标文本的相关度达到预设相关度阈值时,则认为该限定层被满足。
上述实施例中,通过限定语义对关键词进行限定,可以更加精确地表达类目语义,这样在语义层面进行匹配时,可以提高目标文本与类目相关度的计算准确率,进而可以提高文本处理的准确率。
在一个实施例中,S110包括:当目标类目中存在包括层次递进语义表达式的第二目标类目时,则按照第二目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层;在当前层包括的关键词中存在筛选出的目标关键词时,则计算属于当前层的目标关键词与目标文本的相关度,并将下一层作为当前层,直至计算出属于末层的目标关键词与目标文本的相关度时止;将计算出的相关度求和得到第二目标类目与目标文本的相关度。
其中,层次递进语义表达式,是对类目语义层次的逻辑关系进行递进式表述的表达式。层次递进关系有先后顺序。层次递进语义表达式中包括至少两层语义层,每层语义层各自对应有关键词。
举例说明,比如“老年大码男鞋”这一类目,关键词可以是:“老年”、“大码”和“男鞋”,可以通过由“老年”到“大码”再到“男鞋”逐层递进来精确地表达“老年大码男鞋”这一类目的语义。计算机设备可以在关键词之间添加标识,以表示关键词之间的递进关系。比如,以“>>”表示递进关系,“老年大码男鞋”这一类目的层次递进语义表达式为“老年>>大码>>男鞋”。
在一个实施例中,层次递进语义表达式的一层中可包括多个关键词。比如“老年大码男鞋”这一类目的层次递进语义表达式也可以写为:“老人+长辈>>大尺码+大码+加宽>>男鞋+男靴”。
可以理解,层次递进语义表达式既然是表述逐层递进语义的语义关系,则在进行相关度计算时,需要逐层判断是否满足语义递进关系,在判定满足语义递进关系时才计算目标文本与层次递进语义表达式所对应类目的相关度。
具体地,当目标类目中存在包括层次递进语义表达式的第二目标类目时,计算机设备可按照第二目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层。对于当前层,计算机设备可查看当前层包括的关键词中是否存在筛选出的目标关键词。
在当前层包括的关键词中存在筛选出的目标关键词,计算机设备则判定目标文本符合截止到当前层的递进关系,可计算属于当前层的目标关键词与目标文本的相关度,并将下一层作为当前层,直至计算出属于末层的目标关键词与目标文本的相关度时止;将计算出的相关度求和得到第二目标类目与目标文本的相关度。当然,计算机设备也可在判定每层包括的关键词中都存在筛选出的目标关键词后,再计算属于各层的目标关键词与目标文本的相关度。
若在其中某一层为当前层时,该层包括的关键词中不存在筛选出的目标关键词时,计算机设备则判定目标文本不符合该第二目标类目的层次递进关系,直接将第二目标类目与目标文本的相关度设置为零,无需再进行后面层的判定。
也就是说,层次递进语义表达式中的每一层都必须匹配成功,目标文本才符合层次递进语义表达式所表述的目标类目。
具体地,目标类目的语义表达式中各个层次的语义相关度计算公式为:每层语义相关度=本层对应所有正向关键词与目标文本相关度累加和-本层对应所有负向关键词与文本相关度累加和。
举例说明,“老年大码男鞋”这一类目的层次递进语义表达式为:“老年>>大码>>男鞋”。对于“青年大码男鞋”这一目标文本,因为与层级递进含义的第一层“老年”不相关,则与“老年大码男鞋”类目的相关度将直接置为0。
上述实施例中,通过将类目语义层次的逻辑关系进行递进式表述,可以更加精确地表达类目语义,这样在语义层面进行匹配时,可以提高目标文本与类目相关度的计算准确率,进而可以提高文本处理的准确率。
在一个实施例中,该文本处理方法还包括:当第二目标类目的层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度时,则在第二目标类目的层次递进语义表达式中定位相关度高于末层的语义层;当预设类目中存在包括目标层次递进语义表达式的第三目标类目时,则回退至第三目标类目;目标层次递进语义表达式,为自第二目标类目的层次递进语义表达式首层起截止至定位至的语义层的层次递进语义表达式。
可以理解,预设类目的语义表达式不一定需要把预设类目的语义表达完全,只要语义表达式已经能明确的反映预设类目整体的语义即可。例如“服饰箱包——老年大码男鞋”这个类目,通常情况下语义表达式可以只表达鞋子的语义,则可写为:“老人+长辈>>大尺码+大码+加宽>>男鞋+男靴”。如果需要考虑与服饰箱包这一级类目的其他类目,例如“服饰箱包-名贵钟表”对齐的话,可按需写为“服饰+箱包+服装>>老人+长辈>>大尺码+大码+加宽>>男鞋+男靴”。
也就是说,层次递进语义表达式中所表达的语义层次,可以包括类目层次,也可以不包括类目层次。比如“服饰箱包——老年大码男鞋”这一类目,如果将层次递进语义表达式写为:“老人+长辈>>大尺码+大码+加宽>>男鞋+男靴”,则其表达的3个层次依次为“老人+长辈”、“大尺码+大码+加宽”和“男鞋+男靴”,并不涉及类目的2个层次:“服饰箱包”和“老年大码男鞋”。再比如,“宠物-狗”这一类目,如果将层次递进语义表达式写为:“宠物>>狗”,那么其表达的2个层次“宠物”和“狗”也是类目的2个层次。
那么,在层次递进语义表达式中所表达的语义层次包括类目层次的情况下,语义相关度计算可以支持类目层次语义的回退,以提高目标文本与类目相关度计算的准确性。例如:将“宠物——狗”和“宠物”这两个类目分别表达成:“宠物>>狗”和“宠物”,则对目标文本“宠物有很多种;宠物包括狗,猫,兔,猪等等”基于关键词层面进行关键词匹配时,因为“宠物——狗”和目标文本有更多相同的关键词,类目“宠物——狗”的相关度会高于“宠物”类目的相关度。然而,从语义角度,目标文本显然是讲宠物这个一般概念,应该和“宠物”类目的语义更加相关。显然,基于关键词层面的相关度计算并不准确。
具体地,当第二目标类目的层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度时,计算机设备可判定当前存在类目层次语义回退的可能性。此时,计算机设备可先查看该层次递进语义表达式中所表达的语义层次是否包括类目层次。若层次递进语义表达式中所表达的语义层次包括类目层次,则计算机设备可判定当前可进行类目层次语义回退,继而可在第二目标类目的层次递进语义表达式中定位相关度高于末层的语义层,然后回退至自第二目标类目的层次递进语义表达式首层起截止至定位至的语义层的层次递进语义表达式所表述的类目。
这样,对于上述举例,类目第一层的“宠物”与目标文本的相关度是高于“狗”这个类目第二层的关键词的相关度,那么若进行类目层级语义的回退,回退到“宠物”这一类目,则可以提高目标文本与类目相关度计算的准确性。
图4示出一个实施例中类目层次语义回退的示意图。参考图4,假设目标文本为“宠物有很多种;宠物包括狗,猫,兔,猪等等”,对目标文本进行关键词匹配后,从预设类目中定位的目标类目包括:“宠物——狗”和“宠物”等。基于关键词层面进行匹配时,因为类目“宠物——狗”相较于类目“宠物”和目标文本有更多匹配的关键词,类目“宠物——狗”与目标文本的相关度高于类目“宠物”与目标文本的相关度,故输出类目“宠物——狗”。基于语义层面进行匹配时,则不会立即输出类目“宠物——狗”,会对类目“宠物——狗”进行进一步分析。此时,类目“宠物——狗”第一层的关键词“宠物”与目标文本的相关度高于第二层的关键词“狗”与目标文本的相关度,且“宠物——狗”第一层的关键词“宠物”对应有一个上层类目“宠物”,则可进行类目回退,则输出类目“宠物”,而非类目“宠物——狗”,更符合实际场景。
在本实施例中,在层次递进语义表达式中所表达的语义层次包括类目层次的情况下,语义相关度计算可以支持类目层次语义的回退,可以提高目标文本与类目相关度计算的准确性,进而可以提高文本处理的准确率。
在一个实施例中,该文本处理方法还包括应用步骤,该应用步骤具体包括以下步骤:
S502,根据确定的各相关度,按照相关度降序对相应的目标类目进行排序。
具体地,计算机设备在确定每个目标类目与目标文本的相关度后,可根据与目标文本的相关度的高低来对相应的目标类目进行排序。在排序时,可按照相关度降序排序,相关度高的排序靠前而相关度低的排序靠后。
S504,从排序的目标类目首位起选取预设比例的目标类目。
具体地,计算机设备可再从排序的目标类目中,从与目标文本相关度最高的目标类目开始,按照排序的目标类目总量的预设百分比来选取目标类目。
比如,共有X个目标类目,则取排名靠前的X*10%的目标类目,此时预设比例可为10%。
S506,将选取的目标类目标注为与目标文本相关的类目。
具体地,计算机设备可将选取的目标类目标注为与目标文本相关的类目,实现文本标注场景中的文本标注,以表示目标文本与选取的这些目标类目相关。
在另外的实施例中,计算机设备还可选取与目标文本相关度最高的目标类目,作为目标文本所属的类目,实现文本分类场景中的文本分类。
另外,通过大量的实验证明,基于本申请实施例中的文本处理方法,也就是基于语义表达式的文本与类目相关度计算的方法,在应用于文本分类场景中,文本分类准确率为81.7%;在应用于文本标注场景中,文本标注准确率为88.2%。
上述实施例中,通过本申请实施例中的文本处理方法,也就是基于语义表达式的文本与类目相关度计算的方法,在文本分类场景以及文本标注场景中,都有较高的准确率。
图6示出了一个具体的实施例中文本处理方法的逻辑示意图。
第一阶段,计算机设备在获取目标文本后,对目标文本进行分出处理得到特征词,并继续获取这些特征词。这样,计算机设备可再将获取的特征词与各预设类目相对应的语义表达式所包括的关键词进行匹配,以从这些关键词中筛选出与获取的特征词匹配的目标关键词。然后,计算机设备再在预设类目中定位各目标关键词所属语义表达式相对应的目标类目。
第二阶段,对于每个目标类目,计算机设备可查看该目标类目所对应的语义表达式中是否包括层次递进语义表达式。
1)当目标类目所对应的语义表达式中包括层次递进语义表达式时,则按照该目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层,并继续查看当前层是否包括限定语义表达式。
1.1)在当前层包括限定语义表达式时,则查看对于该限定语义表达式的每一层限定层是否都筛选出目标关键词。若是、且每层限定层筛选出的目标关键词中都有目标关键词与目标文本的相关度达到预设相关度阈值,则判定目标文本符合限定语义表达式,继而判定目标文本符合截止到当前层所表述的层次递进关系。若否,或者若是、但存在某层限定层筛选出的目标关键词与目标文本的相关度未达到预设相关度阈值,则判定目标文本不符合该限定语义表达式,继而判定目标文本不符合目标类目所表述的层次递进关系,直接将目标文本与目标类目的相关度置为0。
1.2)在当前层不包括限定语义表达式时,则查看当前层是否筛选出目标关键词。若是,则判定目标文本符合截止到当前层所表述的层次递进关系。若否,则判定目标文本不符合目标类目所表述的层次递进关系,直接将目标文本与目标类目的相关度置为0。
1.3)这样,直至将层次递进语义表达式中的末层作为当前层,并判断出目标文本符合截止到末层所表述的层次递进关系,也就是判定目标文本符合目标类目所表述的层次递进关系时,将各层的语义相关度加和得到目标文本与目标类目的相关度。其中,每层的语义相关度=本层对应所有正向关键词与目标文本相关度累加和-本层对应所有负向关键词与文本相关度累加和。可以理解,限定语义表达式中的限定关键词也可以是正向关键词或者负向关键词。
2)当目标类目所对应的语义表达式中不包括层次递进语义表达式时,则继续查看目标类目所对应的语义表达式中是否包括限定语义表达式。
2.1)在目标类目所对应的语义表达式中包括限定语义表达式时,则查看对于该限定语义表达式的每一层限定层是否都筛选出目标关键词。若是、且每层限定层筛选出的目标关键词中都有目标关键词与目标文本的相关度达到预设相关度阈值,则判定目标文本符合限定语义表达式。将所有正向关键词与目标文本相关度的累加和,与所有负向关键词与文本相关度累加和求差,得到目标文本与目标类目的相关度。若否,或者若是、但存在某层限定层筛选出的目标关键词与目标文本的相关度未达到预设相关度阈值,则判定目标文本不符合该限定语义表达式,直接将目标文本与目标类目的相关度置为0。
2.2)在目标类目所对应的语义表达式中不包括限定语义表达式时,则直接将所有正向关键词与目标文本相关度的累加和,与所有负向关键词与文本相关度累加和求差,得到目标文本与目标类目的相关度。
第三阶段,计算机设备可继续判断是否需要回退,也就是查看层次递进语义表达式中所表达的语义层次是否包括类目层次、且在层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度。
当层次递进语义表达式中所表达的语义层次包括类目层次、且在层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度,则可进行类目层次语义的回退。在目标类目的层次递进语义表达式中定位相关度高于末层的语义层,回退至自目标类目的层次递进语义表达式首层起截止至定位至的语义层的层次递进语义表达式所表述的类目,并计算目标文本与回退至的类目的相关度。
在不满足层次递进语义表达式中所表达的语义层次包括类目层次、且在层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度的条件时,则无需进行回退,输出目标类目和目标文本与目标类目的相关度。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图7所示,在一个实施例中,提供了一种文本处理装置700。参照图7,该文本处理装置700包括:获取模块701、筛选模块702、语义关系确定模块703、定位模块704和相关度确定模块705。
获取模块701,用于获取对目标文本进行分词处理得到的特征词。
筛选模块702,用于从各预设类目相对应的语义表达式所包括的关键词中,筛选出与特征词匹配的目标关键词。
语义关系确定模块703,用于根据各目标关键词所属的语义表达式所表达的语义关系,确定各目标关键词相对应的语义关系。
定位模块704,用于在预设类目中定位各目标关键词所属语义表达式相对应的目标类目。
相关度确定模块705,用于根据各目标关键词相对应的语义关系、及各目标关键词与目标文本的相关度,确定各目标关键词相对应的目标类目与目标文本的相关度。
在一个实施例中,语义表达式包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。相关度确定模块705还用于确定各目标关键词与目标文本的相关度;将每个目标类目相对应、且对应正向语义关系的目标关键词与目标文本的相关度求和,得到每个目标类目与目标文本的第一相关度;将每个目标类目相对应、且对应负向语义关系的目标关键词与目标文本的相关度求和,得到每个目标类目与目标文本的第二相关度;以及根据第一相关度与第二相关度的差异,得到每个目标类目与目标文本的相关度。
在一个实施例中,相关度确定模块705还用于根据各目标关键词的词长、在目标文本中的出现次数、及逆文本频率指数,计算各目标关键词与目标文本的相关度。
在一个实施例中,相关度确定模块705还用于当目标类目中存在包括限定语义表达式的第一目标类目时,则对于第一目标类目的限定语义表达式的各限定层,分别计算所包括的目标关键词与目标文本的相关度;当计算得到的各相关度均达到预设相关度阈值时,则根据第一目标类目下的目标关键词相对应的语义关系、及第一目标类目下的目标关键词与目标文本的相关度,计算第一目标类目与目标文本的相关度。
在一个实施例中,相关度确定模块705还用于当计算得到的各相关度中存在未达到预设相关度阈值的相关度时,则直接将第一目标类目的限定语义表达式所包括的各关键词与目标文本的相关度设置为零。
在一个实施例中,相关度确定模块705还用于当目标类目中存在包括层次递进语义表达式的第二目标类目时,则按照第二目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层;在当前层包括的关键词中存在筛选出的目标关键词时,则计算属于当前层的目标关键词与目标文本的相关度,并将下一层作为当前层,直至计算出属于末层的目标关键词与目标文本的相关度时止;将计算出的相关度求和得到第二目标类目与目标文本的相关度。
在一个实施例中,相关度确定模块705还用于在当前层包括的关键词中不存在筛选出的目标关键词时,则直接将第二目标类目与目标文本的相关度设置为零。
在一个实施例中,相关度确定模块705还用于当第二目标类目的层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度时,则在第二目标类目的层次递进语义表达式中定位相关度高于末层的语义层;当预设类目中存在包括目标层次递进语义表达式的第三目标类目时,则回退至第三目标类目;目标层次递进语义表达式,为自第二目标类目的层次递进语义表达式首层起截止至定位至的语义层的层次递进语义表达式。
如图8所示,在一个实施例中,文本处理装置700还包括应用模块706,用于根据确定的各相关度,按照相关度降序对相应的目标类目进行排序;从排序的目标类目首位起选取预设比例的目标类目;将选取的目标类目标注为与目标文本相关的类目。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图9所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本处理方法。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本处理装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本处理装置的各个程序模块,比如,图7所示的获取模块701、筛选模块702、语义关系确定模块703、定位模块704和相关度确定模块705。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本处理方法中的步骤。
例如,图9所示的计算机设备可以通过如图7所示的文本处理装置700中的获取模块701获取对目标文本进行分词处理得到的特征词。通过筛选模块702从各预设类目相对应的语义表达式所包括的关键词中,筛选出与特征词匹配的目标关键词。通过语义关系确定模块703根据各目标关键词所属的语义表达式所表达的语义关系,确定各目标关键词相对应的语义关系。通过定位模块704在预设类目中定位各目标关键词所属语义表达式相对应的目标类目。通过相关度确定模块705根据各目标关键词相对应的语义关系、及各目标关键词与目标文本的相关度,确定各目标关键词相对应的目标类目与目标文本的相关度。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本处理方法的步骤。此处文本方法的步骤可以是上述各个实施例的文本处理方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本处理方法的步骤。此处文本处理方法的步骤可以是上述各个实施例的文本处理方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种文本处理方法,包括:
获取对目标文本进行分词处理得到的特征词;
从各预设类目相对应的语义表达式所包括的关键词中,筛选出与所述特征词匹配的目标关键词;
根据各所述目标关键词所属的语义表达式所表达的语义关系,确定各所述目标关键词相对应的语义关系;
在预设类目中定位各所述目标关键词所属语义表达式相对应的目标类目;
根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度。
2.根据权利要求1所述的方法,其特征在于,所述语义表达式包括正向语义表达式和负向语义表达式,所述语义关系包括正向语义关系和负向语义关系;
所述根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度,包括:
确定各所述目标关键词与所述目标文本的相关度;
将每个所述目标类目相对应、且对应正向语义关系的目标关键词与所述目标文本的相关度求和,得到每个所述目标类目与所述目标文本的第一相关度;
将每个所述目标类目相对应、且对应负向语义关系的目标关键词与所述目标文本的相关度求和,得到每个所述目标类目与所述目标文本的第二相关度;
根据第一相关度与第二相关度的差异,得到每个所述目标类目与所述目标文本的相关度。
3.根据权利要求2所述的方法,其特征在于,所述确定各所述目标关键词与所述目标文本的相关度,包括:
根据各所述目标关键词的词长、在所述目标文本中的出现次数、及逆文本频率指数,计算各所述目标关键词与所述目标文本的相关度。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度,包括:
当所述目标类目中存在包括限定语义表达式的第一目标类目时,则
对于所述第一目标类目的限定语义表达式的各限定层,分别计算所包括的目标关键词与所述目标文本的相关度;
当计算得到的各所述相关度均达到预设相关度阈值时,则
根据所述第一目标类目下的目标关键词相对应的语义关系、及所述第一目标类目下的目标关键词与所述目标文本的相关度,计算所述第一目标类目与所述目标文本的相关度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当计算得到的各所述相关度中存在未达到预设相关度阈值的相关度时,则直接将所述第一目标类目的限定语义表达式所包括的各关键词与所述目标文本的相关度设置为零。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度,包括:
当所述目标类目中存在包括层次递进语义表达式的第二目标类目时,则
按照所述第二目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层;
在当前层包括的关键词中存在筛选出的目标关键词时,则
计算属于当前层的目标关键词与所述目标文本的相关度,并将下一层作为当前层,直至计算出属于末层的目标关键词与所述目标文本的相关度时止;
将计算出的相关度求和得到所述第二目标类目与所述目标文本的相关度。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在当前层包括的关键词中不存在筛选出的目标关键词时,则直接将所述第二目标类目与所述目标文本的相关度设置为零。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当第二目标类目的层次递进语义表达式中,存在属于非末层的目标关键词与目标文本的相关度高于属于末层的目标关键词与目标文本的相关度时,则
在第二目标类目的层次递进语义表达式中定位相关度高于末层的语义层;
当预设类目中存在包括目标层次递进语义表达式的第三目标类目时,则回退至所述第三目标类目;所述目标层次递进语义表达式,为自第二目标类目的层次递进语义表达式首层起截止至定位至的语义层的层次递进语义表达式。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
根据确定的各所述相关度,按照相关度降序对相应的目标类目进行排序;
从排序的目标类目首位起选取预设比例的目标类目;
将选取的目标类目标注为与所述目标文本相关的类目。
10.一种文本处理装置,包括:
获取模块,用于获取对目标文本进行分词处理得到的特征词;
筛选模块,用于从各预设类目相对应的语义表达式所包括的关键词中,筛选出与所述特征词匹配的目标关键词;
语义关系确定模块,用于根据各所述目标关键词所属的语义表达式所表达的语义关系,确定各所述目标关键词相对应的语义关系;
定位模块,用于在预设类目中定位各所述目标关键词所属语义表达式相对应的目标类目;
相关度确定模块,用于根据各所述目标关键词相对应的语义关系、及各所述目标关键词与所述目标文本的相关度,确定各所述目标关键词相对应的目标类目与所述目标文本的相关度。
11.根据权利要求9所述的装置,其特征在于,所述语义表达式包括正向语义表达式和负向语义表达式,所述语义关系包括正向语义关系和负向语义关系;
所述相关度确定模块还用于确定各所述目标关键词与所述目标文本的相关度;将每个所述目标类目相对应、且对应正向语义关系的目标关键词与所述目标文本的相关度求和,得到每个所述目标类目与所述目标文本的第一相关度;将每个所述目标类目相对应、且对应负向语义关系的目标关键词与所述目标文本的相关度求和,得到每个所述目标类目与所述目标文本的第二相关度;以及根据第一相关度与第二相关度的差异,得到每个所述目标类目与所述目标文本的相关度。
12.根据权利要求9所述的装置,其特征在于,所述相关度确定模块还用于当所述目标类目中存在包括限定语义表达式的第一目标类目时,则对于所述第一目标类目的限定语义表达式的各限定层,分别计算所包括的目标关键词与所述目标文本的相关度;当计算得到的各所述相关度均达到预设相关度阈值时,则根据所述第一目标类目下的目标关键词相对应的语义关系、及所述第一目标类目下的目标关键词与所述目标文本的相关度,计算所述第一目标类目与所述目标文本的相关度。
13.根据权利要求9所述的装置,其特征在于,所述相关度确定模块还用于当所述目标类目中存在包括层次递进语义表达式的第二目标类目时,则按照所述第二目标类目的层次递进语义表达式的层次递进顺序,依次将层次递进语义表达式中各层作为当前层;在当前层包括的关键词中存在筛选出的目标关键词时,则计算属于当前层的目标关键词与所述目标文本的相关度,并将下一层作为当前层,直至计算出属于末层的目标关键词与所述目标文本的相关度时止;将计算出的相关度求和得到所述第二目标类目与所述目标文本的相关度。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257894.7A CN109446525B (zh) | 2018-10-26 | 2018-10-26 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257894.7A CN109446525B (zh) | 2018-10-26 | 2018-10-26 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446525A true CN109446525A (zh) | 2019-03-08 |
CN109446525B CN109446525B (zh) | 2023-03-24 |
Family
ID=65547630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257894.7A Active CN109446525B (zh) | 2018-10-26 | 2018-10-26 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446525B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502687A (zh) * | 2019-08-22 | 2019-11-26 | 山东开创云软件有限公司 | 一种网站优化方法和装置 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110765780A (zh) * | 2019-11-15 | 2020-02-07 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于语义识别的采购需求评估系统及评估方法 |
CN113836937A (zh) * | 2021-09-23 | 2021-12-24 | 平安普惠企业管理有限公司 | 基于比较模型的文本处理方法、装置、设备与存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
CN107798032A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 自助语音会话中的应答消息处理方法和装置 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN108509482A (zh) * | 2018-01-23 | 2018-09-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
-
2018
- 2018-10-26 CN CN201811257894.7A patent/CN109446525B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN107798032A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 自助语音会话中的应答消息处理方法和装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN108509482A (zh) * | 2018-01-23 | 2018-09-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
黄贤英 等: "结合词性的短文本相似度算法及其在文本分类中的应用", 《电讯技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502687A (zh) * | 2019-08-22 | 2019-11-26 | 山东开创云软件有限公司 | 一种网站优化方法和装置 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110597988B (zh) * | 2019-08-28 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110765780A (zh) * | 2019-11-15 | 2020-02-07 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于语义识别的采购需求评估系统及评估方法 |
CN113836937A (zh) * | 2021-09-23 | 2021-12-24 | 平安普惠企业管理有限公司 | 基于比较模型的文本处理方法、装置、设备与存储介质 |
CN113836937B (zh) * | 2021-09-23 | 2023-11-10 | 上海瑞释信息科技有限公司 | 基于比较模型的文本处理方法、装置、设备与存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109446525B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446525A (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN105589972B (zh) | 训练分类模型的方法及装置、对搜索词分类的方法及装置 | |
CN103577416A (zh) | 扩展查询方法及系统 | |
CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN105528411B (zh) | 船舶装备交互式电子技术手册全文检索装置及方法 | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN107145496A (zh) | 基于关键词将图像与内容项目匹配的方法 | |
CN103488724A (zh) | 一种面向图书的阅读领域知识图谱构建方法 | |
CN110334178A (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN104537116A (zh) | 一种基于标签的图书搜索方法 | |
CN109635082A (zh) | 政策影响分析方法、装置、计算机设备和存储介质 | |
CN109684625A (zh) | 实体处理方法、装置和存储介质 | |
Huang et al. | Mention Recommendation for Twitter with End-to-end Memory Network. | |
CN106649276B (zh) | 标题中核心产品词的识别方法以及装置 | |
Kelm et al. | Multi-modal, multi-resource methods for placing flickr videos on the map | |
CN103020074A (zh) | 基于本体的对象级搜索技术 | |
CN105159927B (zh) | 目标文本主题词的选取方法、装置及终端 | |
US20240013280A1 (en) | Product recommendation method and apparatus, computer storage medium, and system | |
CN110532359A (zh) | 法律条文查询方法、装置、计算机设备和存储介质 | |
CN109117434B (zh) | 裁判文书检索方法、装置、存储介质及处理器 | |
CN114282513A (zh) | 文本语义相似度的匹配方法、系统、智能终端及存储介质 | |
Yuan et al. | A mathematical information retrieval system based on RankBoost | |
CN110008352A (zh) | 实体发现方法及装置 | |
CN104598609A (zh) | 一种用于垂直领域的概念处理方法和装置 | |
Tetali et al. | Browser with clustering of web documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |