CN110188181B - 领域关键词确定方法、装置、电子设备和存储介质 - Google Patents
领域关键词确定方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110188181B CN110188181B CN201910470105.6A CN201910470105A CN110188181B CN 110188181 B CN110188181 B CN 110188181B CN 201910470105 A CN201910470105 A CN 201910470105A CN 110188181 B CN110188181 B CN 110188181B
- Authority
- CN
- China
- Prior art keywords
- frequency
- keyword
- preset
- target field
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种领域关键词确定方法、装置、电子设备及存储介质,涉及数据挖掘技术领域。该方法包括:确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实现了从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
Description
技术领域
本申请涉及数据挖掘技术领域,具体而言,本申请涉及一种领域关键词确定方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,人工智能得到越来越广泛的重视。人工智能是研究人类智能活动的规律,构造具有一定智能的计算机系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类智能行为的技术。将人工智能技术应用到人机对话领域,能够自动回复用户提出的问题,在节省人力的同时,还能够提高回复效率。
智能问答系统作为人机对话领域最为广泛的落地应用,对文本语义的理解显得尤为重要。智能问答系统中的文本语义理解通常采用QP的方式。所谓QP就是计算用户问题(Query)和知识库里的问题(Post)之间的语义相似度。在计算QP的过程中,机器对句子里面术语的识别越准确,其对QP相似度的计算就会越准确,进而才能为用户提供准确的答案。现有技术中的术语挖掘方法准确率不高,容易导致对整个句子的语义理解产生偏差,从而影响智能问答系统的性能。
发明内容
本申请提供了一种领域关键词确定方法、装置、电子设备和存储介质,用于解决现有技术中术语挖掘方法准确率不高,容易导致对整个句子的语义理解产生偏差,从而影响智能问答系统的性能的问题。
第一方面,提供了一种领域关键词确定方法,该方法包括:
确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;
基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。
在一种可能的实现方式中,基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表,包括:
将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果;
在目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;
基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词;
将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果;
循环执行在目标领域文本信息中对第一合并结果中的关键词的位置进行标记得到第一标记结果、基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词、将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果的步骤,直至满足预设的循环终止条件时,将第一合并结果确定为目标领域的关键词词表。
在一种可能的实现方式中,预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者第三频率关键词的数量小于预设的第二数量阈值。
在一种可能的实现方式中,确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词,包括:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据互信息、左熵以及右熵中的至少一项,确定目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
在一种可能的实现方式中,在目标领域文本信息中标记第一频率关键词的位置,包括:
筛选出满足第一预设条件的第一频率关键词;
在目标领域文本信息中标记满足第一预设条件的第一频率关键词的位置。
在一种可能的实现方式中,将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果,包括:
筛选出满足第一预设条件的第一频率关键词;
筛选出满足第二预设条件的第二频率关键词;
将满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
在一种可能的实现方式中,基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词,包括:
通过预定模型,并基于标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;
预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
第二方面,提供了一种领域关键词确定装置,该装置包括:
第一确定模块,用于确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
标记模块,用于在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;
处理模块,用于基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
第二确定模块,用于基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。
在一种可能的实现方式中,第二确定模块具体用于:
第一合并单元,用于将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果;
标记单元,用于在目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;
处理单元,用于基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词;
第二合并单元,用于将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果;
循环单元,用于循环执行在目标领域文本信息中对第一合并结果中的关键词的位置进行标记得到第一标记结果、基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词、将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果的步骤,直至满足预设的循环终止条件时,将第一合并结果确定为目标领域的关键词词表。
在一种可能的实现方式中,预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者第三频率关键词的数量小于预设的第二数量阈值。
在一种可能的实现方式中,第一确定模块具体用于:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据互信息、左熵以及右熵中的至少一项,确定目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
在一种可能的实现方式中,标记模块具体用于:
筛选出满足第一预设条件的第一频率关键词;
在目标领域文本信息中标记满足第一预设条件的第一频率关键词的位置。
在一种可能的实现方式中,第一合并单元具体用于:
筛选出满足第一预设条件的第一频率关键词;
筛选出满足第二预设条件的第二频率关键词;
将满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
在一种可能的实现方式中,处理模块具体用于:
通过预定模型,并基于标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;
预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或者第一方面任一可能的实现方式所示的领域关键词确定方法。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面或者第一方面任一可能的实现方式所示的领域关键词确定方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种领域关键词确定方法、装置、电子设备和存储介质,首先确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;然后在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实施例能够从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种领域关键词确定方法的流程示意图;
图2为本申请实施例提供的一种领域关键词确定装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图;
图4为本申请实施例提供的金融领域专业词汇列表片段的示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种领域关键词确定方法的流程示意图,如图1所示,该方法可以包括:
步骤S101,确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
步骤S102,在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;
步骤S103,基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
步骤S104,基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。
本申请提供的领域关键词确定方法,首先确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;然后在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实施例能够从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
下面对本申请实施例的上述方案进行具体展开说明。
步骤S101,确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词。
具体的,获取目标领域文本信息,收集来自于网络公开的领域文章或数据,以及领域客户提供的人机对话日志或历史数据。将收集到的领域数据进行清洗,得到目标领域文本信息。其中,第一频率关键词为目标领域出现频率比较高的专业词汇,预设频率阈值可以根据具体需要进行设置。
在一种可能的实现方式中,确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词,包括:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据互信息、左熵以及右熵中的至少一项,确定目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
在实际应用中,对于第一频率关键词的确定,首先对目标领域文本信息中的句子进行分词处理,得到多个目标领域的候选关键词,例如,新股申购市值怎么计算。然后计算目标领域的候选关键词的特征参数:互信息、左熵、右熵,通过这些特征参数确定词频达到预设频率阈值的第一频率关键词。确定出第一频率关键词之后,将这些第一频率关键词生成第一频率关键词表。
其中,根据公式1)计算互信息:
x,y为相邻的两个候选关键词。
根据公式2)计算左熵:
根据公式3)计算右熵:
其中,aW和Wb分别表示候选关键词与左边的词、候选关键词与右边的词的共现。
步骤S102,在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;
具体地,在目标领域文本信息的句子中标记出第一频率关键词出现的位置,在目标领域文本信息中标记第一频率关键词的目的是便于提取第一频率关键词。
在一种可能的实现方式中,在目标领域文本信息中标记第一频率关键词的位置,包括:
筛选出满足第一预设条件的第一频率关键词;在目标领域文本信息中标记满足第一预设条件的第一频率关键词的位置。
在实际应用中,可以不需要将所有的第一频率关键词都进行位置标记,可以根据具体需要选择满足第一预设条件的多个第一频率关键词在目标文本信息中进行标记。例如,可以选择出现频率较高的一部分第一频率关键词在目标领域文本信息中进行标记。
步骤S103,基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
其中,第二频率关键词为跟第一频率关键词相比,在目标领域文本信息中出现频率比较低的专业词汇,也就是说,第二频率关键词出现的频率没有达到预设频率阈值。
在一种可能的实现方式中,基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词,包括:
通过预定模型,并基于标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
在实际应用中,将标记后的目标领域文本信息作为训练集进行训练,基于序列标注的条件随机场算法CRF、以及深度学习模型长短期记忆网络LSTM等,训练出出现的频率没有达到预设频率阈值的第二频率关键词,将训练出的第二频率关键词生成第二频率关键词表。
步骤S104,基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。
具体地,将包含多个第一频率关键词的第一频率关键词表,包含多个第二频率关键词的第二频率关键词表进行合并处理,得到包含多个第一频率关键词和多个第二频率关键词的目标领域关键词词表。
在一种可能的实现方式中,基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表,包括:
将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果;在目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词;将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果;
循环执行在目标领域文本信息中对第一合并结果中的关键词的位置进行标记得到第一标记结果、基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词、将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果的步骤,直至满足预设的循环终止条件时,将第一合并结果确定为目标领域的关键词词表。
在实际应用中,对于获取目标领域的关键词词表,采用循环迭代的方式,每次迭代都会得到新的第一频率关键词和第二频率关键词,从而增加目标领域的关键词词表中的词汇数量,循环迭代多次,直到满足预设的循环终止条件,将最终得到的所有词汇作为最终的关键词词表。
在一种可能的实现方式中,预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者第三频率关键词的数量小于预设的第二数量阈值。
在实际应用中,预设的循环终止条件可以是循环迭代的次数达到预设的阈值或者发现的新的专业词汇的数量不再明显增多,还可以包括其他的循环终止条件,本申请实施例对此不做限定。
在一种可能的实现方式中,将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果,包括:
筛选出满足第一预设条件的第一频率关键词;筛选出满足第二预设条件的第二频率关键词;将满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
在实际应用中,对于得到的第一频率关键词和第二频率关键词可以进行筛选之后再进行合并,从而确定最终的关键词词表。
在一个具体的实施中,针对金融领域大约百万级的金融语料的术语挖掘,经过迭代,得到了大约数千个该领域专业词汇的列表,片段截取如图4所示。
基于与图1中所示方法相同的原理,本申请的实施例中还提供了一种领域关键词确定装置,如图2所示,该领域关键词确定装置20可以包括:第一确定模块201、标记模块202、处理模块203、第二确定模块204;
第一确定模块201,用于确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
标记模块202,用于在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;
处理模块203,用于基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
第二确定模块204,用于基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。
在一种可能的实现方式中,第二确定模块204具体用于:
第一合并单元,用于将第一频率关键词和第二频率关键词进行合并处理得到第一合并结果;
标记单元,用于在目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;
处理单元,用于基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词;
第二合并单元,用于将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果;
循环单元,用于循环执行在目标领域文本信息中对第一合并结果中的关键词的位置进行标记得到第一标记结果、基于第一标记结果,得到词频未达到预设频率阈值的第三频率关键词、将第三频率关键词和第一合并结果进行合并,并将合并结果作为第一合并结果的步骤,直至满足预设的循环终止条件时,将第一合并结果确定为目标领域的关键词词表。
在一种可能的实现方式中,预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者第三频率关键词的数量小于预设的第二数量阈值。
在一种可能的实现方式中,第一确定模块201具体用于:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据互信息、左熵以及右熵中的至少一项,确定目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
在一种可能的实现方式中,标记模块202具体用于:
筛选出满足第一预设条件的第一频率关键词;
在目标领域文本信息中标记满足第一预设条件的第一频率关键词的位置。
在一种可能的实现方式中,第一合并单元具体用于:
筛选出满足第一预设条件的第一频率关键词;
筛选出满足第二预设条件的第二频率关键词;
将满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
在一种可能的实现方式中,处理模块203具体用于:
通过预定模型,并基于标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;
预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
本申请实施例的领域关键词确定装置可执行本申请的实施例所提供的一种领域关键词确定方法,其实现原理相类似,本申请各实施例中的领域关键词确定装置中的各模块所执行的动作是与本申请各实施例中的领域关键词确定方法中的步骤相对应的,对于领域关键词确定装置的各模块的详细功能描述具体可以参见前文中所示的对应的领域关键词确定方法中的描述,此处不再赘述。
本申请提供的领域关键词确定装置,首先确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;然后在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实施例能够从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
上述实施例从虚拟模块的角度介绍了领域关键词确定装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备3000包括:处理器3001和存储器3003。其中,处理器3001和存储器3003相连,如通过总线3002相连。可选地,电子设备3000还可以包括收发器3004。需要说明的是,实际应用中收发器3004不限于一个,该电子设备3000的结构并不构成对本申请实施例的限定。
处理器3001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器3001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线3002可包括一通路,在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器3003用于存储执行本申请方案的应用程序代码,并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:本申请首先确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;然后在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实施例能够从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请首先确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;然后在目标领域文本信息中标记第一频率关键词的位置,得到标记后的目标领域文本信息;基于标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;基于第一频率关键词和第二频率关键词,确定目标领域的关键词词表。本申请实施例能够从目标领域文本信息中准确挖掘关键词,基于本申请挖掘出的关键词构造的智能问答系统,回复用户问题的准确性更高。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种领域关键词确定方法,其特征在于,包括:
确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
在所述目标领域文本信息中标记所述第一频率关键词的位置,得到标记后的目标领域文本信息;
基于所述标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
基于所述第一频率关键词和所述第二频率关键词,确定所述目标领域的关键词词表,该步骤包括:
将所述第一频率关键词和所述第二频率关键词进行合并处理得到第一合并结果;
基于第一合并结果重复执行以下操作,直至满足预设的循环终止条件,将满足预设的循环终止条件时的第一合并结果确定为所述目标领域的关键词词表:
在所述目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;基于所述第一标记结果,得到词频未达到所述预设频率阈值的第三频率关键词;将所述第三频率关键词和第一合并结果进行合并,并将合并后的结果作为新的第一合并结果。
2.根据权利要求1所述的方法,其特征在于,所述预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者所述第三频率关键词的数量小于预设的第二数量阈值。
3.根据权利要求1所述的方法,其特征在于,确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词,包括:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算所述目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据所述互信息、左熵以及右熵中的至少一项,确定所述目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
4.根据权利要求1所述的方法,其特征在于,在所述目标领域文本信息中标记所述第一频率关键词的位置,包括:
筛选出满足第一预设条件的第一频率关键词;
在所述目标领域文本信息中标记所述满足第一预设条件的第一频率关键词的位置。
5.根据权利要求1所述的方法,其特征在于,将所述第一频率关键词和所述第二频率关键词进行合并处理得到第一合并结果,包括:
筛选出满足第一预设条件的第一频率关键词;
筛选出满足第二预设条件的第二频率关键词;
将所述满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
6.根据权利要求1所述的方法,其特征在于,基于所述标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词,包括:
通过预定模型,并基于所述标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;
所述预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
7.一种领域关键词确定装置,其特征在于,包括:
第一确定模块,用于确定目标领域文本信息中各个词汇的词频达到预设频率阈值的第一频率关键词;
标记模块,用于在所述目标领域文本信息中标记所述第一频率关键词的位置,得到标记后的目标领域文本信息;
处理模块,用于基于所述标记后的目标领域文本信息,得到词频未达到预设频率阈值的第二频率关键词;
第二确定模块,用于基于所述第一频率关键词和所述第二频率关键词,确定所述目标领域的关键词词表;
其中,所述第二确定模块具体包括:
第一合并单元,用于将所述第一频率关键词和所述第二频率关键词进行合并处理得到第一合并结果;
循环单元,用于基于第一合并结果,重复执行以下操作,直至满足预设的循环终止条件,将满足预设的循环终止条件时的第一合并结果确定为所述目标领域的关键词词表:
在所述目标领域文本信息中对第一合并结果中的关键词的位置进行标记,得到第一标记结果;基于所述第一标记结果,得到词频未达到所述预设频率阈值的第三频率关键词;将所述第三频率关键词和第一合并结果进行合并,并将合并后的结果作为新的第一合并结果。
8.根据权利要求7所述的装置,其特征在于,所述预设的循环终止条件,包括:
循环执行的次数达到预设的第一数量阈值或者所述第三频率关键词的数量小于预设的第二数量阈值。
9.根据权利要求7所述的装置,其特征在于,第一确定模块具体用于:
对目标领域文本信息进行分词处理,得到目标领域的候选关键词;
计算所述目标领域的候选关键词的互信息、左熵以及右熵中的至少一项;
根据所述互信息、左熵以及右熵中的至少一项,确定所述目标领域的候选关键词中词频达到预设频率阈值的第一频率关键词。
10.根据权利要求7所述的装置,其特征在于,所述标记模块具体用于:
筛选出满足第一预设条件的第一频率关键词;
在所述目标领域文本信息中标记所述满足第一预设条件的第一频率关键词的位置。
11.根据权利要求7所述的装置,其特征在于,所述第一合并单元具体用于:
筛选出满足第一预设条件的第一频率关键词;
筛选出满足第二预设条件的第二频率关键词;
将所述满足第一预设条件的第一频率关键词和满足第二预设条件的第二频率关键词进行合并处理,得到第一合并结果。
12.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
通过预定模型,并基于所述标记后的目标领域文本信息进行训练,得到词频未达到预设频率阈值的第二频率关键词;
所述预定模型包括条件随机场算法CRF或长短期记忆网络LSTM。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~6任一项所述的领域关键词确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1~6中任一项所述的领域关键词确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910470105.6A CN110188181B (zh) | 2019-05-31 | 2019-05-31 | 领域关键词确定方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910470105.6A CN110188181B (zh) | 2019-05-31 | 2019-05-31 | 领域关键词确定方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188181A CN110188181A (zh) | 2019-08-30 |
CN110188181B true CN110188181B (zh) | 2021-06-18 |
Family
ID=67719426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910470105.6A Active CN110188181B (zh) | 2019-05-31 | 2019-05-31 | 领域关键词确定方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188181B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241240B (zh) * | 2020-01-08 | 2023-08-15 | 中国联合网络通信集团有限公司 | 行业关键词提取方法及装置 |
CN114912466A (zh) * | 2022-04-01 | 2022-08-16 | 杭州网易云音乐科技有限公司 | 基于词频的日志处理方法、介质、装置和计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646100A (zh) * | 2011-02-21 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN109241525A (zh) * | 2018-08-20 | 2019-01-18 | 深圳追科技有限公司 | 关键词的提取方法、装置和系统 |
CN109344367A (zh) * | 2018-10-24 | 2019-02-15 | 厦门美图之家科技有限公司 | 地域标注方法、装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150046152A1 (en) * | 2013-08-08 | 2015-02-12 | Quryon, Inc. | Determining concept blocks based on context |
-
2019
- 2019-05-31 CN CN201910470105.6A patent/CN110188181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646100A (zh) * | 2011-02-21 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN109241525A (zh) * | 2018-08-20 | 2019-01-18 | 深圳追科技有限公司 | 关键词的提取方法、装置和系统 |
CN109344367A (zh) * | 2018-10-24 | 2019-02-15 | 厦门美图之家科技有限公司 | 地域标注方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110188181A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ling et al. | Latent predictor networks for code generation | |
AU2017408801B2 (en) | User keyword extraction device and method, and computer-readable storage medium | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN110532397B (zh) | 基于人工智能的问答方法、装置、计算机设备及存储介质 | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN109670191B (zh) | 机器翻译的校准优化方法、装置与电子设备 | |
CN105389307A (zh) | 语句意图类别识别方法及装置 | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
US10747961B2 (en) | Method and device for identifying a sentence | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN109145083B (zh) | 一种基于深度学习的候选答案选取方法 | |
CN110188181B (zh) | 领域关键词确定方法、装置、电子设备和存储介质 | |
CN112183111A (zh) | 长文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN111639500A (zh) | 语义角色标注方法、装置、计算机设备及存储介质 | |
CN111325015B (zh) | 一种基于语义分析的文档查重方法及系统 | |
CN117473053A (zh) | 基于大语言模型的自然语言问答方法、装置、介质及设备 | |
CN113947084A (zh) | 基于图嵌入的问答知识检索方法、装置及设备 | |
CN112085091A (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN114036276A (zh) | 一种信息抽取方法、装置、设备及存储介质 | |
CN107766419B (zh) | 一种基于阈值去噪的TextRank文档摘要方法及装置 | |
CN107122378B (zh) | 对象处理方法、装置及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200729 Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms Applicant before: Tricorn (Beijing) Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |