CN111191446B - 交互信息处理方法、装置、计算机设备和存储介质 - Google Patents
交互信息处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111191446B CN111191446B CN201911258211.4A CN201911258211A CN111191446B CN 111191446 B CN111191446 B CN 111191446B CN 201911258211 A CN201911258211 A CN 201911258211A CN 111191446 B CN111191446 B CN 111191446B
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- information
- standard
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于自然语言处理的交互信息处理方法,该方法包括:获取用户终端发送的交互信息,提取交互信息对应的文本信息;对文本信息进行文本分割得到多个文本句;通过文本分析模型识别并提取出多个文本对应的待标准化文本;提取待标准化文本的领域语义特征,计算待标准化文本与领域词库中多个标准文本的互信息值;提取互信息值达到互信息阈值的标准文本生成候选集;提取待标准化文本与候选集中多个标准文本的相似度达到相似度阈值的标准文本并输出;将标准文本与知识图谱数据进行匹配,获取相匹配的目标知识信息并推送至用户终端。采用本方法能够准确有效地识别交互信息的领域关键词,以提高交互信息的处理效率和信息推送的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种交互信息处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,如自动问答等人机交互系统在生活中的应用越来越广泛,也为人们的生活带来了许多便利。对于用户输入的信息需要进行准确识别和挖掘,才能够有效地获取用户咨询信息对应知识信息,从而解决用户的疑问和需求。
用户的输入问题信息通常属于短文本且用词多样、随意、不规范,机器学习很难提取到问题中丰富的语义特征。目前出现了一些利用SVD、LDA、PCA等基于矩阵分解实现降维或采用机器学习的方式来构建分类器对问题进行分类,以识别用户信息中的关键词和语义特征等。但由于大矩阵分解的效率较低,降维需要耗费大量的时间,对于特定领域的信息无法准确有效地识别,进而导致特定领域的信息获取的准确性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确有效地识别交互信息的领域关键词,以提高交互信息的处理效率和信息推送的准确性的交互信息处理方法、装置、计算机设备和存储介质。
一种交互信息处理方法,所述方法包括:
获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;
对所述文本信息进行文本分割,得到多个文本句;
将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;
提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;
检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;
计算所述待标准化文本与所述候选集中多个标准文本之间的相似度,当所述相似度达到相似度阈值时,提取所述相似度对应的标准文本并输出;
将所述标准文本与目标领域的知识图谱数据进行匹配,获取与所述标准文本相匹配的目标知识信息,将所述目标知识信息推送至所述用户终端。
在其中一个实施例中,所述提取出多个文本对应的待标准化文本的步骤包括:通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;根据文本句的序列标签计算所述文本句的语义特征,根据所述语义特征对文本句进行分词,得到多个文本;根据所述序列标签和语义特征计算多个文本的词性标签;根据所述语义特征和词性标签计算多个文本的规范因子;提取所述规范因子满足预设阈值的文本,将所述文本作为待标准化文本。
在其中一个实施例中,所述提取所述互信息值达到阈值的标准文本的步骤包括:根据所述领域语义特征获取所述目标领域对应的多个标准文本;计算所述多个待标准化文本与所述多个标准文本之间的点互相关性;计算所述多个待标准化文本的左边界熵和右边界熵,根据所述左边界熵和右边界熵得到所述待标准化文本的信息熵;根据所述点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取所述互信息值满足预设阈值的多个标准文本。
在其中一个实施例中,所述方法还包括:计算所述多个待标准化文本与所述候选集中多个标准文本之间的相似度;根据所述互信息值和相似度计算所述待标准化文本与多个标准文本的互相关性;计算待标准化文本与非领域词典中多个词汇的负相关性;计算所述多个待标准化文本对应标准领域词典中标准文本的概率值;根据所述互相关性和负相关性以及概率值得到目标相关性;从所述候选集中提取出所述目标相关性达到阈值的标准文本。
在其中一个实施例中,所述获取与所述标准文本相匹配的目标知识信息步骤包括:根据所述目标领域获取领域类别对应的知识图谱数据;所述知识图谱数据包括多个知识信息;计算所述标准文本与多个知识信息的匹配度;获取所述匹配度达到预设阈值的知识信息,将所述知识信息确定为所述标准文本对应的目标知识信息。
一种交互信息处理装置,所述装置包括:
数据获取模块,用于获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;
文本分割模块,用于对所述文本信息进行文本分割,得到多个文本句;
文本分析模块,用于将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;
文本提取模块,用于检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;计算所述待标准化文本与所述候选集中多个标准文本之间的相似度,当所述相似度达到相似度阈值时,提取所述相似度对应的标准文本并输出;
信息推送模块,用于将所述标准文本与目标领域的知识图谱数据进行匹配,获取与所述标准文本相匹配的目标知识信息,将所述目标知识信息推送至所述用户终端。
在其中一个实施例中,所述文本分析模块还用于通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;根据文本句的序列标签计算所述文本句的语义特征,根据所述语义特征对文本句进行分词,得到多个文本;根据所述序列标签和语义特征计算多个文本的词性标签;根据所述语义特征和词性标签计算多个文本的规范因子;提取所述规范因子满足预设阈值的文本,将所述文本作为待标准化文本。
在其中一个实施例中,所述文本提取模块还用于根据所述领域语义特征获取所述目标领域对应的多个标准文本;计算所述多个待标准化文本与所述多个标准文本之间的点互相关性;计算所述多个待标准化文本的左边界熵和右边界熵,根据所述左边界熵和右边界熵得到所述待标准化文本的信息熵;根据所述点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取所述互信息值满足预设阈值的多个标准文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的交互信息处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的交互信息处理方法的步骤。
上述交互信息处理方法、装置、计算机设备和存储介质,服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而通过文本分析模型识别多个文本的语义特征,从而能够有效地识别并提取出多个文本对应的待标准化文本。服务器进一步根据待标准化文本与领域词库中多个标准文本的互信息值,提取互信息值达到阈值的标准文本,从而能够准确有效地获取与多个待标准化文本相关的标准文本,并利用标准文本生成候选集。服务器则根据多个待标准化文本与候选集中多个标准文本之间的相似度,准确有效地提取出交互信息所对应的标准文本并输出。服务器进而获取与标准文本相匹配的目标知识信息并推送至用户终端。通过识别交互信息中所对应的标准文本,并根据标准文本获取相应的目标知识信息,从而能够准确有效地获取匹配度较高的目标知识信息,进而有效提高了交互信息的处理效率和信息推送的准确性。
附图说明
图1为一个实施例中交互信息处理方法的应用场景图;
图2为一个实施例中交互信息处理方法的流程示意图;
图3为一个实施例中提取多个文本对应的待标准化文本步骤的流程示意图;
图4为一个实施例中提取交互信息对应的标准文本步骤的流程示意图;
图5为一个实施例中交互信息处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的交互信息处理方法,可以应用于如图1所示的应用环境中。其中,用户终端102通过网络与服务器104进行通信。服务器104获取用户终端102发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器104进而通过文本分析模型识别多个文本的语义特征,提取出多个文本对应的待标准化文本。服务器104进一步根据待标准化文本与领域词库中多个标准文本的互信息值,提取互信息值达到阈值的标准文本,并利用标准文本生成候选集。服务器104则根据多个文本与候选集中多个标准文本之间的相似度,准确有效地提取出交互信息所对应的标准文本并输出。服务器104进而获取与标准文本相匹配的目标知识信息并推送至用户终端102。其中,用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种交互信息处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取用户终端发送的交互信息,提取交互信息对应的文本信息。
本方法可以应用于人机交互的问答系统或咨询系统。其中,用户可以通过用户终端向人机交互系统对应的服务器发送交互信息。交互信息包括但不限于文本信息、语音信息以及图像信息。例如,交互信息可以包括多种格式的信息,例如可以包括文本格式的信息,也可以包括语音格式的信息,还可以包括表情信息等。
服务器获取用户终端发送的交互信息后,提取出交互信息对应的文本信息,以进一步对交互信息进行领域词识别处理。
其中,交互信息的内容可以为多种形式的内容,例如可以为文字信息、语音以及图像信息等形式的内容。当交互信息为文字信息时,可以直接识别会话信息中的文字内容。
具体地,当用户终端发送的交互信息包括表情信息时,服务器则将识别表情信息对应的文本含义,并转换为相应的文本信息。
当交互信息中包括语音信息时,服务器首先对交互信息中的语音信息进行预处理,预处理可以是对语音会话信息进行语音识别,得到对应的文本信息。具体地,服务器可以利用语音识别技术识别交互信息的内容,通过对交互信息进行语音识别,从而提取出语音信息中的文字内容。服务器进而对提取的文字内容进行下一步处理。语音识别技术已经比较成熟,再次不再赘述。
当交互信息中包括图像信息时,可以通过图像识别技术对图像信息的内容进行识别,如OCR技术。服务器可以利用OCR技术将图片中的文字抽取出来,把原来图片上的文字以文本形式展现出来,从而提取得到交互信息对应的文本内容。使得服务器对提取的文字内容进行下一步处理。
步骤204,对文本信息进行文本分割,得到多个文本句。
服务器获取用户终端发送的交互文本信息后,对交互文本信息进行文本分割,得到多个文本句。具体地,服务器可以将获取的交互文本信息的格式统一为文本格式,并对交互文本信息按照预设间隔符进行分割,为多个文本句。服务器同时可并过滤预设类型的字符或标点,并去除敏感词。例如服务器可以按大标点符号对交互文本信息进行分割为多个文本句。
步骤206,将多个文本句输入至文本分析模型,识别文本句的语义特征并对文本句进行分词得到多个文本,提取出多个文本对应的待标准化文本。
其中,文本分析模型中可以包括判别式无向图模型、语义分割模型、隐马尔科夫模型以及领域词分类模型。判别式无向图模型用于计算文本句的最优序列,语义分割模型用于对文本句进行语义分割,隐马尔科夫模型用于对分割得到的文本词进行词性标注,分类模型则用于将提取的待标准化文本与特定领域知识图谱中的知识数据进行匹配分类。
服务器对交互文本信息进行文本分割,得到多个文本句后,获取预设的已训练的文本分析模型,通过文本分析模型计算文本句中多个文本的语义特征,根据语义特征对文本句进行分词,并提取出待标准化文本。
具体地,服务器通过文本分析模型对文本句进行分词,得到多个文本。服务器还可以对分词后的文本进行词性标注,计算多个文本句的文本序列,并对文本句添加对应的最优序列。根据文本句的最优序列计算文本句中多个文本的语义特征和规范因子,根据语义特征对文本句进行分词,并提取出规范因子满足预设阈值的文本词作为待标准化文本,从而能够准确有效地对不重要的词汇进行过滤。
步骤208,提取待标准化文本对应目标领域的领域语义特征,根据领域语义特征计算待标准化文本与领域词库中多个标准文本的互信息值。
步骤210,检测互信息值是否达到阈值,当达到互信息阈值时,提取互信息值对应的标准文本生成候选集。
其中,互信息值可以表示待标准化文本与领域词库中多个标准文本之间的相关性。例如,可以用PMI(点互相关性)这个指标来衡量两个词之间的相关性。候选集中可以包括该用户终端发送的多个交互信息所对应的标准文本,候选集中可以包括多个待标准化文本对应的标准文本。交互文本信息可以包括一个或多个待标准化文本,候选集中还可以包括多个交互文本信息的多个待标准化文本对应的标准文本。
服务器提取出多个交互文本信息的多个待标准化文本后,进一步通过文本分析模型提取出待标准化文本的词向量,并提取待标准化文本对应目标领域的领域语义特征,根据目标领域的领域语义特征匹配相应的语义类型,进而根据待标准化文本的领域语义特征计算与领域词库中语义类型对应的多个标准文本之间的互信息值。服务器则检测互信息值是否达到阈值,当达到互信息阈值时,提取互信息值对应的标准文本,并利用对应的标准文本生成候选集。通过文本分析模型对交互文本信息进行语义分析和识别,能够准确有效地识别和提取出交互文本信息中的待标准化文本。
步骤212,计算待标准化文本与候选集中多个标准文本之间的相似度,当相似度达到相似度阈值时,提取相似度对应的标准文本并输出。
步骤214,将标准文本与目标领域对应的知识图谱数据进行匹配,获取与标准文本相匹配的目标知识信息,将目标知识信息推送至用户终端。
服务器提取出交互文本信息中的多个待标准化文本对应的标准文本,并生成候选集后,计算多个待标准化文本与候选集中多个标准文本之间的相似度。当相似度达到相似度阈值时,服务器进而获取相似度达到阈值的标准文本,利用提取出的标准文本得到分析结果并输出。通过计算多个文本与候选集中多个标准文本之间的相似度,能够准确有效地提取出交互信息中所对应的多个标准文本。
服务器进一步根据提取的多个标准文本与目标领域的多个知识图谱数据进行匹配,获取匹配度达到预设阈值的知识图谱信息,并将该知识图谱信息作为与标准文本相匹配的目标知识信息,并将获取的目标知识信息推送至对应的用户终端。通过识别交互信息中所对应的标准文本,并根据标准文本获取相应的目标知识信息,从而能够准确有效地获取匹配度较高的目标知识信息,进而有效提高了交互信息的处理效率和信息推送的准确性。
例如,用户在进行人机交互以咨询医疗领域知识的过程中,输入的交互信息中可能包括医保领域词、医疗名词、疾病名词等信息,而医保领域词、医疗名词、疾病名词等信息等存在非标准格式。用户输入的交互信息通常包括非标准形式的内容,则需要转换为可识别的标准文本,从而准确识别用户输入问答交互信息的领域关键词,并准确有效地匹配相应的目标知识信息,进而有效提高了人机交互系统任务的处理效率,以及目标知识信息的推送准确性。
上述交互信息处理方法中,服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而通过文本分析模型识别多个文本的语义特征,从而能够有效地识别并提取出多个文本对应的待标准化文本。服务器进一步根据待标准化文本与领域词库中多个标准文本的互信息值,提取互信息值达到阈值的标准文本,从而能够准确有效地获取与多个待标准化文本相关的标准文本,并利用标准文本生成候选集。服务器则根据多个待标准化文本与候选集中多个标准文本之间的相似度,准确有效地提取出交互信息所对应的标准文本并输出。服务器进而获取与标准文本相匹配的目标知识信息并推送至用户终端。通过识别交互信息中所对应的标准文本,并根据标准文本获取相应的目标知识信息,从而能够准确有效地获取匹配度较高的目标知识信息,进而有效提高了交互信息的处理效率和信息推送的准确性。
在一个实施例中,如图3所示,提取出多个文本对应的待标准化文本的步骤,具体包括以下内容:
步骤302,通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签。
步骤304,根据文本句的序列标签计算文本句的语义特征,根据语义特征对文本句进行分词,得到多个文本。
步骤306,根据序列标签和语义特征计算多个文本的词性标签。
步骤308,根据语义特征和词性标签计算多个文本的规范因子。
步骤310,提取规范因子满足预设阈值的文本,将文本作为待标准化文本。
其中,文本可以是文本句中包含的多个文本词汇,文本字符,还可以是文本短语等。
服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而获取已训练的文本分析模型,将多个文本句输入至已训练的文本分析模型,通过文本分析模型识别多个文本的语义特征,并提取出多个文本对应的待标准化文本。
具体地,服务器对文本信息进行分割得到多个文本句后,将多个文本句向量输入至文本分析模型中,通过文本分析模型提取文本句的句向量,计算多个文本句的最优文本序列,并对文本句添加对应的序列标签。服务器进而根据文本句的序列标签计算文本句中多个文本的语义特征,根据每个文本的语义特征对文本句进行分词,得到多个文本。服务器根据多个文本的序列标签和语义特征计算多个文本词的词性标签,进而根据多个文本的词性标签和语义特征计算对应的规范因子。服务器则提取出规范因子满足预设阈值的文本,并将提取的文本确定为待标准化文本。通过对词向量进行语义特征识别和提取,有效过滤了目标领域无关词和无效词。
其中,文本序列可以为观测序列。服务器可以通过基于CRF的判别式无向图模型计算文本句的最优序列,基于CRF的判别式无向图模型可以是预先利用大量特定领域语料训练得到的。例如,服务器可以通过CRF算法对输入的多个文本句的句向量进行特征学习,基于给定输入值计算输出值的条件概率。具体地,判别式无向图模型可以计算出输入的文本句的句向量对应的状态函数以及标签转移特征函数,在计算最优序列的过程中不断学习模型参数,利用模型的目标函数根据输入的文本句的句向量对应的状态函数以及标签转移特征函数,为输入序列计算输出序列最大化的最优序列标签,从而有效地识别出文本的最优的序列标签。
例如,文本序列的条件概率分布计算公式可以如下:
其中,X表示文本序列即观测序列,Y为实体分类即标记序列,P(y|x)表示给定输入x的条件下输出y的条件概率分布。tk为i处的转移特征,对应权重λ_k,每个yi都有k个特征,转移特征针对的是前后标签之间的限定。sl为i处的状态特征,对应权重μ_l,每个yi都有L个特征,Z(x)是规范化因子。
进一步的,服务器对文本句进行分句后,还可以对分词后的文本进行词性标注。具体地,服务器可以通过隐马尔科夫模型来进行词性标注。观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。服务器通过隐马尔科夫模型和viterbi算法根据文本序列计算多个文本句的起始概率、发射概率和转移概率,并根据文本句的起始概率、发射概率和转移概率计算对应的隐藏序列,进而根据隐藏序列获取文本句对应的词性标签,并对文本句添加对应的词性标签。其中,起始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到。
例如,当服务器识别出交互信息中的待标准化文本为“冠状动脉粥样硬化性心脏病”时,通过语义分割模型,得到了三种医学相关范畴的语义类型,分别是“冠状动脉(医学解剖语义)”“粥样硬化性(分期分型)”和“心脏病(主疾病)”,由此能够准确有效地根据目标领域进行分词。
在一个实施例中,如图4所示,提取互信息值达到阈值的标准文本的步骤,具体包括以下内容:
步骤402,根据领域语义特征获取目标领域对应的多个标准文本。
步骤404,计算多个待标准化文本与多个标准文本之间的点互相关性。
步骤406,计算多个待标准化文本的左边界熵和右边界熵,根据左边界熵和右边界熵得到待标准化文本的对应的信息熵。
步骤408,根据点互相关性和信息熵计算待标准化文本与多个标准文本之间的相关性,并提取出相关性满足预设阈值的多个标准文本。
服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而获取已训练的文本分析模型,将多个文本句输入至已训练的文本分析模型,通过文本分析模型识别多个文本的语义特征,并提取出多个文本对应的待标准化文本。
服务器从文本中提取多个待标准化文本后,根据待标准化文本的语义类型从目标领域库中获取相对应的多个标准文本,计算多个待标准化文本与领域词库中语义类型对应的多个标准文本之间的点互相关性。服务器进一步计算多个待标准化文本的左边界熵和右边界熵,根据左边界熵和右边界熵得到待标准化文本的对应的信息熵。服务器进而根据点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,并提取出互信息值满足预设阈值的多个标准文本。服务器进而利用提取出的多个标准文本生成候选集。
例如,服务器可以根据PMI指标(点互相关性)计算待标准化文本与多个标准文本的点互相关性,公式可以如下:
其中,在y出现的情况下x出现的条件概率除以x本身出现的概率,就表示x跟y的相关程度。
服务器进一步计算多个待标准化文本边界熵,具体地,可以计算出标准化文本的左边界熵和右边界熵。
例如,计算标准化文本的左边界熵和右边界熵的公式可以如下:
EL(W)=-P∑a∈AP(aW|W)·log2P(aW|W)
ER(W)=-P∑b∈BP(Wb|W)·log2P(Wb|W)
其中,EL和ER分别表示词串的左熵和右熵;W表示bigram(每个字节片段)的词语串,W={w1,w2,…,w n};A表示词串左边出现的所有词语的集合,a表示左边出现的某一个词语;B表示词串右边出现的所有词语的集合,b表示右边出现的某一个词语。如果词串的EL和ER数值越大,即词串W左右出现的词语越多,W就更有可能是一个完整的多字词表达。通过计算与标准文本的相关性,可以从大数据的领域语料中发现和获取领域词,能够有效保留领域相关词语。根据信息熵过滤部分关键词提高领域词的发现效率,并通过词向量进行语义比较,有效过滤了领域无关词和无效词。
在一个实施例中,该方法包括:计算多个待标准化文本与候选集中多个标准文本之间的相似度;根据互信息值和相似度计算待标准化文本与多个标准文本的互相关性;计算待标准化文本与非领域词典中多个词汇的负相关性;计算多个待标准化文本对应标准领域词典中标准文本的概率值;根据互相关性和负相关性以及概率值得到目标相关性;从候选集中提取出目标相关性达到阈值的标准文本。
服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而获取已训练的文本分析模型,将多个文本句输入至已训练的文本分析模型,通过文本分析模型识别多个文本的语义特征,并提取出多个文本对应的待标准化文本。
服务器从文本中提取多个待标准化文本后,根据待标准化文本的语义类型从目标领域库中获取相对应的多个标准文本。服务器则提取待标准化文本对应目标领域的领域语义特征,根据领域语义特征计算待标准化文本与领域词库中多个标准文本的互信息值,进而提取出互信息值达到阈值的标准文本,并利用标准文本生成候选集。
服务器进一步计算多个待标准化文本与候选集中多个标准文本之间的相似度,例如可以是计算多个待标准化文本与多个标准文本之间的余弦相似度。服务器进而根据互信息值和相似度计算待标准化文本与多个标准文本的互相关性。服务器还可以获取目标领域对应的非领域词典,其中,非领域词典中存储了多个目标领域的非标准词汇。服务器则将多个待标准化文本与非领域词典中的多个词汇进行比较,并计算待标准化文本与非领域词典中多个词汇的负相关性。服务器还可以通过分类模型计算多个待标准化文本对应标准领域词典中多个标准文本的概率值,并根据预设算法对互相关性和负相关性以及概率值进行加权平均,得到目标相关性。进而从候选集中提取出目标相关性达到阈值的相对应的标准化文本,并将提取的标准文本作为分析结果并输出。
例如,服务器计算目标相关性的公式,可以如下:
其中,互相关性可以用PS(i)表示,相似度可以用CS(i)表示,待标准化文本分别对应互相关性和相似度的负相关性可以表示为NPS(i)、NCS(i),p1、p2则为基于负相关性指标对应的领域相关性和领域相似度,p3则为待标准化文本对应标准领域词典中标准文本的概率值。通过对上述三种相关性进行加权平均,由此可以得到最终的目标相关性。通过利用多重相关性度量算法,度量待标准化文本对应标准词群的相关性,同时加入了负相关性的度量,有效提升了计算相关性的稳定性和准确度,并根据目标相关性提取出标准文本,从而有效提高了提取待标准化文本对应标准词群的准确度。
在一个实施例中,获取与标准文本相匹配的目标知识信息步骤包括:根据目标领域获取领域类别对应的知识图谱数据;知识图谱数据包括多个知识信息;计算标准文本与多个知识信息的匹配度;获取匹配度达到预设阈值的知识信息,将知识信息确定为标准文本对应的目标知识信息。
其中,知识图谱数据表示在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形结构数据,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱数据在包括多个知识信息。
服务器获取用户终端发送的交互信息并提取对应的文本信息后,对文本信息进行分割得到多个文本句。服务器进而通过文本分析模型识别多个文本的语义特征,从而能够有效地识别并提取出多个文本对应的待标准化文本。服务器进一步根据待标准化文本与领域词库中多个标准文本的互信息值,提取互信息值达到阈值的标准文本,从而能够准确有效地获取与多个待标准化文本相关的标准文本,并利用标准文本生成候选集。服务器则根据多个文本与候选集中多个标准文本之间的相似度,准确有效地提取出交互信息所对应的标准文本并输出。服务器进而获取与标准文本相匹配的目标知识信息并推送至用户终端。
具体地,服务器根据目标领域获取领域类别对应的知识图谱数据,计算标准文本与多个知识信息的匹配度,进而获取匹配度达到预设阈值的知识信息,并将知识信息确定为标准文本对应的目标知识信息。通过识别交互信息中所对应的标准文本,并根据标准文本获取相应的目标知识信息,从而能够准确有效地获取匹配度较高的目标知识信息,进而有效提高了交互信息的处理效率和信息推送的准确性。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种交互信息处理装置,包括:数据获取模块502、文本分割模块504、文本分析模块506、文本提取模块508和信息推送模块510,其中:
数据获取模块,用于获取用户终端发送的交互信息,提取交互信息对应的文本信息;
文本分割模块,用于对文本信息进行文本分割,得到多个文本句;
文本分析模块,用于将多个文本句输入至文本分析模型,识别文本句的语义特征并对文本句进行分词得到多个文本,提取出多个文本对应的待标准化文本;提取待标准化文本对应目标领域的领域语义特征,根据领域语义特征计算待标准化文本与领域词库中多个标准文本的互信息值;
文本提取模块,用于检测互信息值是否达到阈值,当达到互信息阈值时,提取互信息值对应的标准文本生成候选集;计算待标准化文本与候选集中多个标准文本之间的相似度,当相似度达到相似度阈值时,提取相似度对应的标准文本并输出;
信息推送模块,用于将标准文本与目标领域的知识图谱数据进行匹配,获取与标准文本相匹配的目标知识信息,将目标知识信息推送至用户终端。
在一个实施例中,文本分析模块506还用于通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;根据文本句的序列标签计算文本句的语义特征,根据语义特征对文本句进行分词,得到多个文本;根据序列标签和语义特征计算多个文本的词性标签;根据语义特征和词性标签计算多个文本的规范因子;提取规范因子满足预设阈值的文本,将文本作为待标准化文本。
在一个实施例中,文本提取模块508还用于根据领域语义特征获取目标领域对应的多个标准文本;计算多个待标准化文本与多个标准文本之间的点互相关性;计算多个待标准化文本的左边界熵和右边界熵,根据左边界熵和右边界熵得到待标准化文本的信息熵;根据点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取互信息值满足预设阈值的多个标准文本。
在一个实施例中,文本提取模块508还用于计算多个待标准化文本与候选集中多个标准文本之间的相似度;根据互信息值和相似度计算待标准化文本与多个标准文本的互相关性;计算待标准化文本与非领域词典中多个词汇的负相关性;计算多个待标准化文本对应标准领域词典中标准文本的概率值;根据互相关性和负相关性以及概率值得到目标相关性;从候选集中提取出目标相关性达到阈值的标准文本。
在一个实施例中,信息推送模块510还用于根据目标领域获取领域类别对应的知识图谱数据;知识图谱数据包括多个知识信息;计算标准文本与多个知识信息的匹配度;获取匹配度达到预设阈值的知识信息,将知识信息确定为标准文本对应的目标知识信息。
关于交互信息装置的具体限定可以参见上文中对于交互信息方法的限定,在此不再赘述。上述交互信息装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储交互信息、领域标准词库、知识图谱数据以及知识信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的交互信息方法的步骤。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的交互信息方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种交互信息处理方法,所述方法包括:
获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;
对所述文本信息进行文本分割,得到多个文本句;
将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;
提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;
检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;
计算所述待标准化文本与所述候选集中多个标准文本之间的相似度;
根据所述互信息值和相似度计算所述待标准化文本与多个标准文本的互相关性;
计算待标准化文本与非领域词典中多个词汇的负相关性,所述非领域词典中存储了多个目标领域的非标准词汇;
计算所述多个待标准化文本对应标准领域词典中标准文本的概率值;
根据所述互相关性和负相关性以及概率值得到目标相关性;
从所述候选集中提取出所述目标相关性达到阈值的标准文本并输出;
将所述标准文本与目标领域的知识图谱数据进行匹配,获取与所述标准文本相匹配的目标知识信息,将所述目标知识信息推送至所述用户终端。
2.根据权利要求1所述的方法,其特征在于,所述提取出多个文本对应的待标准化文本的步骤包括:
通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;
根据文本句的序列标签计算所述文本句的语义特征,根据所述语义特征对文本句进行分词,得到多个文本;
根据所述序列标签和语义特征计算多个文本的词性标签;
根据所述语义特征和词性标签计算多个文本的规范因子;
提取所述规范因子满足预设阈值的文本,将所述文本作为待标准化文本。
3.根据权利要求1所述的方法,其特征在于,所述提取所述互信息值达到阈值的标准文本的步骤包括:
根据所述领域语义特征获取所述目标领域对应的多个标准文本;
计算所述多个待标准化文本与所述多个标准文本之间的点互相关性;
计算所述多个待标准化文本的左边界熵和右边界熵,根据所述左边界熵和右边界熵得到所述待标准化文本的信息熵;
根据所述点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取所述互信息值满足预设阈值的多个标准文本。
4.根据权利要求1所述的方法,其特征在于,所述获取与所述标准文本相匹配的目标知识信息步骤包括:
根据所述目标领域获取领域类别对应的知识图谱数据;所述知识图谱数据包括多个知识信息;
计算所述标准文本与多个知识信息的匹配度;
获取所述匹配度达到预设阈值的知识信息,将所述知识信息确定为所述标准文本对应的目标知识信息。
5.一种交互信息处理装置,所述装置包括:
数据获取模块,用于获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;
文本分割模块,用于对所述文本信息进行文本分割,得到多个文本句;
文本分析模块,用于将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;
文本提取模块,用于检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;计算所述待标准化文本与所述候选集中多个标准文本之间的相似度;根据所述互信息值和相似度计算所述待标准化文本与多个标准文本的互相关性;计算待标准化文本与非领域词典中多个词汇的负相关性,所述非领域词典中存储了多个目标领域的非标准词汇;计算所述多个待标准化文本对应标准领域词典中标准文本的概率值;根据所述互相关性和负相关性以及概率值得到目标相关性;从所述候选集中提取出所述目标相关性达到阈值的标准文本并输出;
信息推送模块,用于将所述标准文本与目标领域的知识图谱数据进行匹配,获取与所述标准文本相匹配的目标知识信息,将所述目标知识信息推送至所述用户终端。
6.根据权利要求5所述的装置,其特征在于,所述文本分析模块还用于通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;根据文本句的序列标签计算所述文本句的语义特征,根据所述语义特征对文本句进行分词,得到多个文本;根据所述序列标签和语义特征计算多个文本的词性标签;根据所述语义特征和词性标签计算多个文本的规范因子;提取所述规范因子满足预设阈值的文本,将所述文本作为待标准化文本。
7.根据权利要求5所述的装置,其特征在于,所述文本提取模块还用于根据所述领域语义特征获取所述目标领域对应的多个标准文本;计算所述多个待标准化文本与所述多个标准文本之间的点互相关性;计算所述多个待标准化文本的左边界熵和右边界熵,根据所述左边界熵和右边界熵得到所述待标准化文本的信息熵;根据所述点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取所述互信息值满足预设阈值的多个标准文本。
8.根据权利要求5所述的装置,其特征在于,所述信息推送模块还用于根据所述目标领域获取领域类别对应的知识图谱数据;所述知识图谱数据包括多个知识信息;计算所述标准文本与多个知识信息的匹配度;获取所述匹配度达到预设阈值的知识信息,将所述知识信息确定为所述标准文本对应的目标知识信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258211.4A CN111191446B (zh) | 2019-12-10 | 2019-12-10 | 交互信息处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258211.4A CN111191446B (zh) | 2019-12-10 | 2019-12-10 | 交互信息处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191446A CN111191446A (zh) | 2020-05-22 |
CN111191446B true CN111191446B (zh) | 2022-11-25 |
Family
ID=70709192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258211.4A Active CN111191446B (zh) | 2019-12-10 | 2019-12-10 | 交互信息处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191446B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016298A (zh) * | 2020-08-28 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 产品特征信息的提取方法、电子设备及存储介质 |
CN112988953B (zh) * | 2021-04-26 | 2021-09-03 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN113569568A (zh) * | 2021-07-29 | 2021-10-29 | 中国工商银行股份有限公司 | 文本识别方法、装置、电子设备、存储介质及转账方法 |
CN114676237A (zh) * | 2022-03-15 | 2022-06-28 | 平安科技(深圳)有限公司 | 语句相似度确定方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7461056B2 (en) * | 2005-02-09 | 2008-12-02 | Microsoft Corporation | Text mining apparatus and associated methods |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN108241667B (zh) * | 2016-12-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
-
2019
- 2019-12-10 CN CN201911258211.4A patent/CN111191446B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111191446A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191446B (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
WO2021068321A1 (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN108664595B (zh) | 领域知识库构建方法、装置、计算机设备和存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
US9652695B2 (en) | Label consistency for image analysis | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN111931020B (zh) | 公式的标注方法、装置、设备及存储介质 | |
Moradi et al. | A hybrid approach for Persian named entity recognition | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
Abd et al. | A comparative study of word representation methods with conditional random fields and maximum entropy markov for bio-named entity recognition | |
CN114492437B (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
US11042520B2 (en) | Computer system | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 | |
Kanimozhi et al. | A kernel-based SVM for semantic relations extraction from biomedical literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |