CN108287848B - 用于语义解析的方法和系统 - Google Patents

用于语义解析的方法和系统 Download PDF

Info

Publication number
CN108287848B
CN108287848B CN201710015977.4A CN201710015977A CN108287848B CN 108287848 B CN108287848 B CN 108287848B CN 201710015977 A CN201710015977 A CN 201710015977A CN 108287848 B CN108287848 B CN 108287848B
Authority
CN
China
Prior art keywords
characteristic
probability
feature
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710015977.4A
Other languages
English (en)
Other versions
CN108287848A (zh
Inventor
董宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guizhou Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710015977.4A priority Critical patent/CN108287848B/zh
Publication of CN108287848A publication Critical patent/CN108287848A/zh
Application granted granted Critical
Publication of CN108287848B publication Critical patent/CN108287848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于语义解析的方法和系统,该方法包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。

Description

用于语义解析的方法和系统
技术领域
本公开涉及移动通信业务支撑领域,更具体地,涉及用于语义解析的方法和系统。
背景技术
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式进行交互的、上下文相关的、在一个会话过程中连续的对话。目前的交互式问答系统多是针对某一具体领域的,系统的表现性能很大程度上依赖于该领域知识库的规模,系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。领域不同,对应的知识库也不同。但是,以日常对话为内容的问答通常涉及到一个或多个领域。
电信运营商的在线客服系统对人机自助服务的支持不是很好,要么只支持人工服务,要么自助服务对于用户的自然语言语义解析较差,同时需要大量的人工线下录入工作,包括对电信专业知识的录入和常用聊天语料的录入。而业务部门对繁琐的人工操作较为反感,由于无法长期坚持,导致机器人问答准确率逐渐下降。
发明内容
本发明的第一方面涉及一种用于语义解析的方法,包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。
本发明的第二方面涉及一种用于语义解析的系统,包括:特征词获得模块,被配置为获得用户发送的文本信息中包含的一个或多个特征词;特征概率库构建模块,被配置为从预先构建的特征概率库中获取一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;关联分类确定模块,被配置为基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;目标确定模块,被配置为获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。
附图说明
图1示出根据本发明实施例的用于语义解析的方法的流程图。
图2示出根据本发明实施例构建特征库的流程示意图。
图3示出根据本发明实施例的用于语义解析的系统的框图。
图4是示出能够实现根据本发明实施例的用于语义解析的方法和系统的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。
现有在线客服智能应答支持标准的问答对,需要将客服知识库中的知识点通过坐席人员人工采编成问答对再录入智能应答系统,由系统对问答对中的问题内容提取特征词并生成相应的指示性概率,然后通过样本训练来校验机器人处理用户提问的质量。同时,智能应答系统关于用户日常生活类问句的处理较差,需要对日常用语提前采编录入,如果能匹配上寒暄语,则给出相应的答案,对于无法识别的提问,则一律返回系统正在成长。对于互联网或日常生产交互日志等,均需要人工干预转换成结构化知识,才能按照现有处理规则完成机器人智能应答功能。从整个过程可以看出,系统在处理上需要大量的人工干预,系统的日常维护工作繁琐,使用效果不太理想。
图1示出根据本发明实施例的用于语义解析的方法的流程图。如图中所示,方法包括以下步骤:S102,获得用户发送的文本信息中包含的一个或多个特征词;S104,从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;S106,基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;S108,获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。在一些实施例中,方法可选地包括将相似度最高的知识条目提供给用户。
在步骤S102中,获得用户输入的文本信息的一个或多个特征词包括:对用户发送的文本流进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到特征词。
将自然语句进入智能分析系统后,系统先通过中英文分词插件将自然语句分割为多个词组,此时的词组中应该有多个对于进行特征分析毫无作用的词组。如自然语句‘我要了解商旅套餐’进行分词操作后应为“我”、“要”、“我要”、“了解”、“商旅”、“套餐”。其中“我”、“要”、“我要”、“了解”对于特征分析毫无作用。系统通过辨别词语类型的方式将动词和名词以外的词组剔除掉,留下“商旅”、“套餐”作为关键词。
本步骤中,停用词表包括无意义词语、和/或,高文档率词语。
在实际应用时,用户文本中输入的很多词语与需要处理的业务内容关系不大,这样,在获取的候选特征词集中,可能包含了大量噪音。例如,无意义词语的连词:可是、那么、如果等;虚词:的、了、呢等词语,这些与业务内容无关的词语,为了避免后续的冗余处理,节约计算资源,需要将其过滤。本发明实施例中,在获取候选特征词集后,可以根据预先设置的停用词表对获取的候选特征词集进行去噪处理,即通过设置停用词表,与获取的候选特征词集进行匹配,将候选特征词集中与停用词表相匹配的词语进行去噪(过滤)处理。
另外,一些出现频率过高的词语,例如,我们、人家等,这些词只在文本中起辅助作用,与业务内容的关联性也较小。因此,为降低后续处理,提高过滤的性能,可以将它们删除掉。本发明实施例中,在停用词表中设置该类高文档率词语,具体可通过大规模文本集的分析,筛选一批文档率高的词语,加入到停用词表中,即停用词表包括无意义词语以及高文档率词语,并可以采用字典过滤的方式进行,关于字典过滤的方式,具体可参见相关技术文献,在此不再赘述。
经过过滤处理的一个或多个候选特征词即为所需要的一个或多个特征词集。
在S104中,构建特征概率库包括以下步骤:
A1,采集训练样本数据集以及测试样本数据集。在该步骤中,可按照比例(例如,2:1)将样本数据分为训练集(训练样本数据集)和测试集。
A2,对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率库中建立分类业务存储区,存储与分类业务匹配成功的样本数据。本发明实例中,对于未匹配上任何分类业务的样本数据,后续中不再考虑,即可以将其从训练样本数据集中移除,以避免该类样本对后续过程产生干扰。
A3,在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF。
A4,将DF值超过预先设置DF阈值的词条作为特征词存入分类业务存储区。
实际应用中,对于不同的分类业务,可以设置不同的分类业务DF阈值,通过分类业务DF阈值过滤处理,可以使得后续构建的特征概率库更为精确。当然,该步骤为可选。
A5,计算特征词在分类业务中的特征指示概率。
本步骤中,同一特征词可能出现在不同的分类业务存储区,对应不同的特征指示概率。
根据分类业务中的特征词,计算该特征词在该分类业务中的特征指示概率。
实际应用中,可采用朴素贝叶斯分类方法计算特征指示概率。
贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类,通过计算文本属于每个类别的概率P(cj/dx),其中,dx为类别x,cj为第j个样本数据,从而将该文本归为概率最大的一类,朴素贝叶斯分类(NaiveBayesian)算法建立在“贝叶斯假设”的基础之上:即假设所有的特征之间互相独立,基于该假设的朴素贝叶斯分类算法的计算简单,能够进行自我纠正,效果较好。关于贝叶斯分类算法以及朴素贝叶斯分类方法的详细描述,具体可参见相关技术文献,在此不再赘述。
考虑贝叶斯分类算法应用于业务分类和文本搜索等方面,但主要还是应用在垃圾短信、垃圾邮件等类别较少的分类模型构建中,缺少对样本类别概率的迭代计算和不断求精过程,因而,本发明实施例中,结合贝叶斯分类算法并进一步设置迭代求精、分类学习、结果修正,以提高模型的精度以及自适应能力,降低维护成本。针对每一个分类的业务指令,建立一个对应的目标文本和非目标文本特征词的贝叶斯概率模型。在贝叶斯概率模型中,对于每一个特征词,可以运用贝叶斯公式计算特征指示概率。
对于分类业务存储区中的一个特征词w,其特征指示概率计算公式如下:
Figure GDA0002488770240000061
式中,
pi(w)是第i个分类业务中特征词w的特征指示概率;
bi(w)是第i个分类业务中特征词w的目标概率;
gi(w)是第i个分类业务中特征词w的非目标概率,即含有特征w的其他分类业务中文本数量与总的其他分类业务中文本数量的比值。
其中,
Figure GDA0002488770240000062
式中,
DFi(w)为第i个分类业务中含有特征w的目标分类文本数量,即DF值;
Ni为第i个分类业务中总的目标分类文本数量。
Figure GDA0002488770240000063
式中,
DFj(w)为第j个分类业务中含有特征w的文本数量;
Nj为第j个分类业务中总的目标分类文本数量;
n为总的分类业务数量。
A6,根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率库。
特征词(w)的特征概率fi(w)的计算公式如下:
Figure GDA0002488770240000064
式中,
m为含特征w的文本(短信)数量,m=DFi(w);
s为一个常数参量,通常为1;
x为常量,当m=0时假设的常量,即含特征w的文本数量为零时,设置的特征概率,通常设为0.4。
特征w的迭代计算过程,即为特征概率库的构建。由于特征词的筛选消耗时间较长,因此将筛选特征词的整体过程单独分离实现,将统计筛选完成后的特征词用于构建特征概率库,以供前台分类搜索使用。
进一步地,在构建特征概率库后,还包括利用测试样本数据集中的样本数据对构建的特征概率库进行测试验证,并通过反复训练对特征词及特征概率进行修正。训练特征概率库的过程将在下文参考图2示出。
在步骤S106中,对于待分类的文本信息,可以根据训练的结果和该信息的特征得到给该文本信息一个综合的判定值,即联合概率。计算联合概率是用来辨别用户文本信息与分类业务的关联度,关联程度越高则概率越高,概率达到一定标准后即认为用户关注的知识点在此项分类下。在一些实施例中,可以根据预定的联合概率阀值判定某一分类是否包含用户关注的知识点。例如,对于任一分类业务,如果用户文本信息与该分类业务的联合概率高于预定的联合概率阈值,即认为用户关注的知识点在此项分类下。
在该步骤中,文本信息针对每个分类业务的特征联合概率等于一个或多个特征中每个特征的特征概率的乘积除以以下两项之和:一个或多个特征中每个特征的特征概率的乘积、以及一个或多个特征中每个特征的特征概率的逆的乘积。
例如,假设根据用户发送的信息B获得的特征词为b1、b2、b3、……、bn,这些特征词针对该分类业务A的特征概率分别为p(b1)、p(b2)、p(b3)、……、p(bn),则该用户问句B针对分类业务A的联合特征概率可通过下式来计算:
Figure GDA0002488770240000071
即:
Figure GDA0002488770240000072
f(bi)为第i个特征词的特征概率,当信息B中包含以前没有从来没有出现过的特征时,将特征概率设定为初始值,本发明实施例中,初始值假设为0.4。
在步骤S108中,获得本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度包括:把文本信息的一个或多个特征词抽象成与该文本信息相对应的知识点向量;通过词频-逆文档频率(TF-IDF)算法获得知识点向量在一个或多个分类业务中的总权重向量,以及知识点向量在该知识条目中的知识条目权重向量;以及基于总权重向量和知识条目权重向量通过向量空间算法获得文本信息与该知识条目的相似度。
例如,假设已通过上文所述的方法将用户搜索的文本信息关联到分类业务C下,该分类业务C包括m个知识条目,即c1,c2,c3,…,cm,其中任一知识条目cj中含有lj个子知识条目。可以将该文本信息抽象成包括n个特征词的知识点向量D={d1,d2,d3,…,dn},知识点向量D在分类业务C中的总权重向量K={k1,k2,k3,…,kn}可通过TF-IDF算法来获得。下面示出通过TF-IDF算法获得单个特征词di的权重的过程,其中:
di的词频f(di)=di在C中出现的次数/C中的总词数
di的逆文档频率f’(di)=log[C中的知识条目总数/(包含该词的知识条目数+1)]
ki=f(di)×f’(di)
类似地,可以获得知识点向量D在C中的任一个知识条目cj中的知识条目权重向量Lj={qj1,qj2,qj3,…,qjn},其中j为知识条目cj中子条目的数目。
通过向量K与Lj的夹角的余弦值来表征它们的相似度,夹角越小(即,余弦值越高)越相似。
向量K与Lj的夹角余弦计算公式为:
Figure GDA0002488770240000081
在一些实施例中,如果根据本发明的语义解析方法响应于用户的输入问题提供给用户的知识条目不是用户感兴趣的,则该方法还可以对提供给用户的知识条目以及该知识条目中的特征词进行去词频的参数修改,以不断地训练特征概率库。该训练过程的示意图如图2所示。
本发明涉及的核心算法为使用朴素贝叶斯算法对用户提问的问句关联客服知识库分类树的某一项或某几项分类,缩小了知识条目的搜索范围(朴素贝叶斯算法不适合直接用于最终知识点的搜索匹配),再使用向量空间模型算法对用户问句与分类下的知识条目进行相似度计算,最终得出用户搜索的结果。本方案采用的算法充分发挥了朴素贝叶斯和向量空间算法的特点,提高了对于客服知识库知识条目的搜索精度和系统的处理效率。
另外,根据本发明的构建特征库并智能地训练特征库的方法有利地减少人工干预的过程,提高智能应答的准确率,通过对客服知识库知识点进行自动处理生成智能应答规则库,不需要客服人员再单独采编录入问答对,同时对智能应答算法进行优化,减少样本库迭代的次数,仍能保证较高的智能应答准确率,从而达到预期效果。
图3示出根据本发明实施例的用于语义解析的系统的框图。如图中所示,系统包括:特征词获得模块302,被配置为获得用户发送的文本信息中包含的一个或多个特征词;特征概率库构建模块304,被配置为从预先构建的特征概率库中获取一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;关联分类确定模块306,被配置为基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;目标确定模块308,被配置为获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。系统的功能与图1中示出的方法相对应,在此不再详细描述。
结合图1至图3描述的用于语义解析的方法和系统可以由计算设备实现。图4是示出能够实现根据本发明实施例的用于语义解析的方法和系统的计算设备的示例性硬件架构的结构图。如图4所示,计算设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中,输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接,输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接,进而与计算设备400的其他组件连接。具体地,输入设备401接收输入信息(例如,用户的问句),并通过输入接口402将输入信息传送到中央处理器403;中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器404中,然后通过输出接口405将输出信息传送到输出设备406;输出设备406将输出信息输出到计算设备400的外部供用户使用。
也就是说,图4所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1-图3描述的用于语义解析的方法和系统。这里,处理器可以基于输入信息执行计算机可执行指令,从而实现结合图1-图3描述的用于语义解析的方法和系统。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (12)

1.一种用于语义解析的方法,包括:
获得用户发送的文本信息中包含的一个或多个特征词;
从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率;
基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率,并将所述文本信息关联到特征概率库中的一个或多个分类业务;
获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将所述文本信息匹配到相似度最高的知识条目;
其中,获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度包括:
把所述文本信息的一个或多个特征词抽象成与该文本信息相对应的知识点向量;
通过词频-逆文档频率算法获得所述知识点向量在所述一个或多个分类业务中的总权重向量,以及所述知识点向量在该知识条目中的知识条目权重向量;
基于所述总权重向量和所述知识条目权重向量通过向量空间算法获得所述文本信息与该知识条目的相似度。
2.如权利要求1所述的方法,还包括将所述相似度最高的知识条目作为结果提供给所述用户。
3.如权利要求1所述的方法,所述获得用户发送的文本信息中包含的一个或多个特征词包括:
对用户发送的自然语言问句进行分词处理,获取候选特征词集;
根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到所述一个或多个特征词。
4.如权利要求1所述的方法,其中,构建所述特征概率库包括:
采集训练样本数据集;
对训练样本数据集中的样本数据与所述特征概率库中的分类业务进行匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;
在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF;
将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;
计算特征词在分类业务中的特征指示概率;
根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率库。
5.如权利要求1所述的方法,所述文本信息针对每个分类业务的特征联合概率等于所述一个或多个特征中每个特征的特征概率的乘积除以以下两项之和:所述一个或多个特征中每个特征的特征概率的乘积、以及所述一个或多个特征中每个特征的特征概率的逆的乘积。
6.如权利要求1所述的方法,其中,所述文本信息与其所关联到的所述一个或多个分类业务的联合概率高于预定联合概率阈值。
7.一种用于语义解析的系统,包括:
特征词获得模块,被配置为获得用户发送的文本信息中包含的一个或多个特征词;
特征概率库构建模块,被配置为从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率;
关联分类确定模块,被配置为基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率,并将所述文本信息关联到特征概率库中的一个或多个分类业务;
目标确定模块,被配置为获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将所述文本信息匹配到相似度最高的知识条目;
其中,所述目标确定模块包括:
知识点向量获得单元,被配置为把所述文本信息的一个或多个特征词抽象成与该文本信息相对应的知识点向量;
权重计算单元,被配置为通过词频-逆文档频率算法获得所述知识点向量在所述一个或多个分类业务中的总权重向量,以及所述知识点向量在该知识条目中的知识条目权重向量;
相似度计算单元,被配置为基于所述总权重向量和所述知识条目权重向量通过向量空间算法获得所述文本信息与该知识条目的相似度。
8.如权利要求7所述的系统,还包括输出模块,被配置为将所述相似度最高的知识条目作为结果提供给所述用户。
9.如权利要求7所述的系统,所述特征词获得模块包括:
分词处理单元,被配置为对用户发送的自然语言问句进行分词处理,获取候选特征词集;
去停用词处理单元,被配置为根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到所述一个或多个特征词。
10.如权利要求7所述的系统,其中,所述特征概率库构建模块包括:
训练样本数据集单元,被配置为采集训练样本数据集;
分类业务存储区单元,被配置为对训练样本数据集中的样本数据与所述特征概率库中的分类业务进行匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;
文档频率统计单元,被配置为在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF,将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;
特征指示概率计算单元,被配置为计算特征词在分类业务中的特征指示概率;
特征概率库单元,被配置为根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率库。
11.如权利要求7所述的系统,所述文本信息针对每个分类业务的特征联合概率等于所述一个或多个特征中每个特征的特征概率的乘积除以以下两项之和:所述一个或多个特征中每个特征的特征概率的乘积、以及所述一个或多个特征中每个特征的特征概率的逆的乘积。
12.如权利要求7所述的系统,其中,所述文本信息与其所关联到的所述一个或多个分类业务的联合概率高于预定联合概率阈值。
CN201710015977.4A 2017-01-10 2017-01-10 用于语义解析的方法和系统 Active CN108287848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015977.4A CN108287848B (zh) 2017-01-10 2017-01-10 用于语义解析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015977.4A CN108287848B (zh) 2017-01-10 2017-01-10 用于语义解析的方法和系统

Publications (2)

Publication Number Publication Date
CN108287848A CN108287848A (zh) 2018-07-17
CN108287848B true CN108287848B (zh) 2020-09-04

Family

ID=62819670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015977.4A Active CN108287848B (zh) 2017-01-10 2017-01-10 用于语义解析的方法和系统

Country Status (1)

Country Link
CN (1) CN108287848B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382265B (zh) * 2018-12-28 2023-09-19 中国移动通信集团贵州有限公司 搜索方法、装置、设备和介质
CN110300329B (zh) * 2019-06-26 2022-08-12 北京字节跳动网络技术有限公司 基于离散特征的视频推送方法、装置及电子设备
CN111598755A (zh) * 2020-04-25 2020-08-28 济南市公安局 一种公安机关便民服务系统及其应用平台
CN113556695B (zh) * 2021-06-29 2022-12-09 东软集团股份有限公司 一种基于5g消息的信息交互方法、信息交互系统
CN113569009B (zh) * 2021-07-23 2024-01-30 北京智慧星光信息技术有限公司 基于文本相关性的文本匹配方法、系统和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486791A (zh) * 2010-12-06 2012-06-06 腾讯科技(深圳)有限公司 书签智能分类的方法和服务器
CN103049454B (zh) * 2011-10-16 2016-04-20 同济大学 一种基于多标签分类的中英文搜索结果可视化系统
CN103177039A (zh) * 2011-12-26 2013-06-26 中国移动通信集团北京有限公司 一种数据处理方法及装置
CN102930063B (zh) * 2012-12-05 2015-06-24 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
EP2962256A1 (en) * 2013-04-29 2016-01-06 Siemens Aktiengesellschaft Device and method for answering a natural language question using a number of selected knowledge bases
CN105608075A (zh) * 2014-09-26 2016-05-25 北大方正集团有限公司 一种相关知识点的获取方法及系统

Also Published As

Publication number Publication date
CN108287848A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108287848B (zh) 用于语义解析的方法和系统
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN111125334B (zh) 一种基于预训练的搜索问答系统
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
WO2017198031A1 (zh) 解析语义的方法和装置
CN110929043A (zh) 业务问题提取方法及装置
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN112487824B (zh) 客服语音情感识别方法、装置、设备及存储介质
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN111813944A (zh) 一种直播评论分析方法、装置、电子设备及存储介质
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111563361A (zh) 文本标签的提取方法及装置、存储介质
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN111382265B (zh) 搜索方法、装置、设备和介质
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant