CN110502630A - 信息处理方法及设备 - Google Patents
信息处理方法及设备 Download PDFInfo
- Publication number
- CN110502630A CN110502630A CN201910700005.8A CN201910700005A CN110502630A CN 110502630 A CN110502630 A CN 110502630A CN 201910700005 A CN201910700005 A CN 201910700005A CN 110502630 A CN110502630 A CN 110502630A
- Authority
- CN
- China
- Prior art keywords
- information
- keyword
- processed
- word segmentation
- keys
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供一种信息处理方法及设备,该方法包括:对待处理信息进行分词处理;根据预设词库对分词处理后的待处理信息进行信息关键字提取,所述预设词库包括一个或多个预设信息关键字;对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字;将所述有效信息关键字显示在所述待处理信息的预设位置处,本公开实施例能够使用户快速掌握上述待处理信息的要点和精髓,以便更为快速和准确地做出相应处理,解决现有当信息的信息量较大,结构化程度较低时,用户阅读信息需要花费较多时间,不容易找到重点,导致用户错过有价值的信息,进而无法有效利用信息,造成资源浪费的问题。
Description
技术领域
本公开实施例涉及数据处理技术领域,尤其涉及一种信息处理方法及设 备。
背景技术
随着社会的不断发展,各种数据呈现爆炸式增长,大数据时代已经到来。 大数据在丰富人们生活的同时,也给人们带来了不少问题。
目前,用户在阅读相应信息数据时,往往需要阅读完信息才能获知该信 息的相关内容,或者,通过信息的章节目录了解大概信息。
然而,如果某一信息的信息量较大,结构化程度又较低,用户可能需要 花费大量时间才能获知该信息的相关内容。以面试记录为例,面试记录是一 种非常重要的参考信息,但是,由于面试记录信息通常比较长,且结构化程 度比较低,因此用户阅读起来需要花费比较多的时间,且不容易找到重点。 而且,很多用户可能没有足够的时间去阅读信息,或者,在阅读过程中没有 耐心阅读完信息,导致用户错过有价值的信息,进而无法有效利用信息,造 成资源浪费。
发明内容
本公开实施例提供一种信息处理方法及设备,以克服现有当信息的信息 量较大,结构化程度较低时,用户阅读信息需要花费较多时间,不容易找到 重点,导致用户错过有价值的信息,进而无法有效利用信息,造成资源浪费 的问题。
第一方面,本公开实施例提供一种信息处理方法,包括:
对待处理信息进行分词处理;
根据预设词库对分词处理后的待处理信息进行信息关键字提取,所述预 设词库包括一个或多个预设信息关键字;
对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对 应的有效信息关键字;
将所述有效信息关键字显示在所述待处理信息的预设位置处。
在一种可能的设计中,在所述对待处理信息进行分词处理之前,还包括:
对所述待处理信息进行预处理,所述预处理包括去除预设字符。
在一种可能的设计中,所述对待处理信息进行分词处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处 理。
在一种可能的设计中,所述预设词库包括胜任力素质词库和评价语词库, 所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评价语词 库包括一个或多个预设评价关键字;
所述根据预设词库对分词处理后的待处理信息进行关键字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关 键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键 字提取。
在一种可能的设计中,所述对提取的信息关键字进行归类,并根据归类 结果确定所述待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应 的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理 信息对应的有效信息关键字。
在一种可能的设计中,在所述对提取的信息关键字进行归类,并根据归 类结果确定所述待处理信息对应的有效信息关键字之后,还包括:
对所述有效信息关键字进行同义词归一化处理,并对同义词归一化处理 后的有效信息关键字进行关键字合并处理;
所述将所述有效信息关键字显示在所述待处理信息的预设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
第二方面,本公开实施例提供一种信息处理设备,包括:
分词处理模块,用于对待处理信息进行分词处理;
关键字提取模块,用于根据预设词库对分词处理后的待处理信息进行信 息关键字提取,所述预设词库包括一个或多个预设信息关键字;
关键字归类模块,用于对提取的信息关键字进行归类,并根据归类结果 确定所述待处理信息对应的有效信息关键字;
关键字显示模块,用于将所述有效信息关键字显示在所述待处理信息的 预设位置处。
在一种可能的设计中,上述的设备,还包括:
预处理模块,用于在所述分词处理模块对待处理信息进行分词处理之前, 对所述待处理信息进行预处理,所述预处理包括去除预设字符。
在一种可能的设计中,所述分词处理模块对待处理信息进行分词处理, 包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处 理。
在一种可能的设计中,所述预设词库包括胜任力素质词库和评价语词库, 所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评价语词 库包括一个或多个预设评价关键字;
所述关键字提取模块根据预设词库对分词处理后的待处理信息进行关键 字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关 键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键 字提取。
在一种可能的设计中,所述关键字归类模块对提取的信息关键字进行归 类,并根据归类结果确定所述待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应 的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理 信息对应的有效信息关键字。
在一种可能的设计中,上述的设备,还包括:
关键字处理模块,用于在所述关键字归类模块对提取的信息关键字进行 归类,并根据归类结果确定所述待处理信息对应的有效信息关键字之后,对 所述有效信息关键字进行同义词归一化处理,并对同义词归一化处理后的有 效信息关键字进行关键字合并处理;
所述关键字显示模块将所述有效信息关键字显示在所述待处理信息的预 设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和 存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述 至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的信息 处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可 读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时, 实现如上第一方面以及第一方面各种可能的设计所述的信息处理方法。
本公开实施例提供的信息处理方法及设备,该方法通过对待处理信息进 行分词处理,根据预设词库对分词处理后的待处理信息进行信息关键字提取, 其中,预设词库包括一个或多个预设信息关键字,对提取的信息关键字进行 归类,并根据归类结果确定待处理信息对应的有效信息关键字,将有效信息 关键字显示在待处理信息的预设位置处,能够使用户快速掌握上述待处理信 息的要点和精髓,以便更为快速和准确地做出相应处理,解决现有当信息的 信息量较大,结构化程度较低时,用户阅读信息需要花费较多时间,不容易 找到重点,导致用户错过有价值的信息,进而无法有效利用信息,造成资源 浪费的问题。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下 面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的信息处理系统架构示意图;
图2为本公开实施例提供的信息处理方法的流程示意图一;
图3为本公开实施例提供的信息处理方法的流程示意图二;
图4为本公开实施例提供的信息处理设备的结构示意图一;
图5为本公开实施例提供的信息处理设备的结构示意图二;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公 开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于 本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本公开保护的范围。
目前,用户在阅读信息时,往往需要阅读完信息才能获知该信息的相关 内容,或者,通过信息的章节目录了解大概信息。然而,如果某一信息的信 息量较大,结构化程度又较低,用户可能需要花费大量时间才能获知该信息 的相关内容。以面试记录为例,面试记录是一种非常重要的参考信息,但是, 由于面试记录信息通常比较长,且结构化程度比较低,因此用户阅读起来需 要花费比较多的时间,且不容易找到重点。而且,很多用户可能没有足够的 时间去阅读信息,或者,在阅读过程中没有耐心阅读完信息,导致用户错过 有价值的信息,进而无法有效利用信息,造成资源浪费。
因此,考虑到上述问题,本公开提供一种信息处理方法,通过对待处理 信息进行分词处理,根据预设词库对分词处理后的待处理信息进行信息关键 字提取,其中,预设词库包括一个或多个预设信息关键字,对提取的信息关 键字进行归类,并根据归类结果确定待处理信息对应的有效信息关键字,将 有效信息关键字显示在待处理信息的预设位置处,能够使用户快速掌握上述 待处理信息的要点和精髓,以便更为快速和准确地做出相应处理。
本公开提供的一种信息处理方法,可以适用于图1所示的信息处理系统 架构示意图,如图1所示,终端101可以对待处理信息进行分词处理,可以 根据预设词库102对分词处理后的待处理信息进行信息关键字提取,所述预 设词库102包括一个或多个预设信息关键字,还可以对提取的信息关键字进 行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字,将所 述有效信息关键字显示在所述待处理信息的预设位置处。
其中,待处理信息可以为一个或多个需要进行信息处理的信息,可以根 据实际情况确定,也可以由用户指定。需要说明的是,上述待处理信息可以 为文本类信息、语音类信息等,如果上述待处理信息为非文本类信息,需要 先将上述待处理信息转换为文本类信息后执行上述信息处理流程,例如上述 待处理信息为语音类信息,可以对上述待处理信息进行语音识别,获得相应 的文本类信息,然后执行上述信息处理流程。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解 决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对 于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图, 对本公开的实施例进行描述。
图2为本公开实施例提供的信息处理方法的流程示意图一,本公开实施 例的执行主体可以为图1所示实施例中的终端,也可以为其它执行主体,例 如处理器、服务器、应用平台等,本公开实施例此处不做特别限制。如图2 所示,该方法可以包括:
S201:对待处理信息进行分词处理。
这里,所述待处理信息可以通过以下方式获取:接收用户发送的信息处 理请求,所述信息处理请求携带所述待处理信息。
可选地,在所述对待处理信息进行分词处理之前,还包括:
对所述待处理信息进行预处理,所述预处理包括去除预设字符。其中, 预设字符可以根据实际情况设置,或者由用户设置,例如预设字母、数字等。 对待处理信息进行预处理,去除无意义信息,提高后续关键字提取的准确率。
这里,对待处理信息进行预处理的方式也可以根据实际情况设置,或者 由用户设置,满足多种应用需要。
可选地,所述对待处理信息进行分词处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处 理。
其中,条件随机场(Conditional Random Field,简称CRF),是一种机 器学习技术分词,CRF把分词当做字的词位分类问题,通常定义字的词位信 息如下:词首,常用B表示;词中,常用M表示;词尾,常用E表示;单子 词,常用S表示,CRF分词的过程就是对词位标注后,将B和E之间的字, 以及S单字构成分词。隐马尔可夫模型(Hidden Markov Model,简称HMM) 是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。它的状态 不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某 些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密 度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程,具有 一定状态数的隐马尔可夫链和显示随机函数集。具体的,除上述基于条件随 机场或隐马尔可夫的分词模型对所述待处理信息进行分词处理外,还可以根 据实际情况采用其它分词方式,例如基于词的n元语法模型,对所述待处理信息进行分词处理。
另外,除上述利用分词模型对待处理信息进行分词处理外,还可以将待 处理信息中长段的文本,在标点符号处断开,拆开为一个个短句,根据预设 词库对拆开的短句进行信息关键字提取。
这里,在所述对待处理信息进行分词处理后,还可以显示分词处理结果, 方便相关人员查看,另外,还可以接收用户发送的重新分词请求,根据该请 求重新对待处理信息进行分词处理,还可以在分词结束后对分词处理结果进 行缓存,并在信息处理完成后,删除分词处理结果,这样,如果分词处理后 后续处理出错,可以利用缓存中的信息重新执行后续步骤,适合应用。
S202:根据预设词库对分词处理后的待处理信息进行信息关键字提取, 所述预设词库包括一个或多个预设信息关键字。
这里,预设词库中包含的预设信息关键字可以根据实际情况设置,或者 由用户设置。
可选地,所述预设词库包括胜任力素质词库和评价语词库,所述胜任力 素质词库包括一个或多个预设胜任力素质关键字,所述评价语词库包括一个 或多个预设评价关键字;
所述根据预设词库对分词处理后的待处理信息进行关键字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关 键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键 字提取。
具体的,上述胜任力素质词库可以包括预设胜任力素质关键字,其中, 预设胜任力素质关键字可以为体现认知能力的关键字,例如聪明程度、聪明 度等,还可以为体现沟通能力的关键字,例如沟通、沟通交流、表达能力等。
上述评价语词库可以包括预设评价关键字,其中,预设评价关键字可以 为体现不同评价等级的关键字,例如一般、优秀等。
在根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质 关键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关 键字提取之后,可以判断是否提取到关键字,如果没有,可以提示提取失败, 若接收到用户发送的重新提取请求,则根据该请求重新执行上述提取步骤, 如果有提取到关键字,则执行后续对提取的信息关键字进行归类的步骤。
另外,如果多次提取均未提取到关键字,其中,具体提取次数可以根据 实际情况设置,或者由用户设置,则可以提示消息中不包含相应关键字。
S203:对提取的信息关键字进行归类,并根据归类结果确定所述待处理 信息对应的有效信息关键字。
可选地,所述对提取的信息关键字进行归类,并根据归类结果确定所述 待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应 的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理 信息对应的有效信息关键字。
其中,预设关键字与关键字类别的对应关系可以根据实际情况设置,例 如关键字“沟通”、“沟通交流”属于一类。在上述预设关键字与关键字类 别的对应关系中查找提取的信息关键字对应的关键字类别,如果能够查找到, 则根据查找到的关键字类别对提取的信息关键字进行归类,否则,可以把没 有查找到关键字类别的信息关键字,以及上述预设关键字与关键字类别的对 应关系发给用户,由用户确定关键字类别,然后根据确定的关键字类别对提 取的信息关键字进行归类。
在归类后每类信息关键字中查找字数最多的信息关键字,例如某类信息 关键字中包括“沟通”和“沟通交流”,按最大方式匹配,查找字数最多的 信息关键字,即“沟通交流”,作为上述待处理信息对应的有效信息关键字。
另外,在根据确定的关键字类别对提取的信息关键字进行归类后,还可 以将归类结果发送至用户,由用户从归类后每类信息关键字中确定所述待处 理信息对应的有效信息关键字。
S204:将所述有效信息关键字显示在所述待处理信息的预设位置处。
其中,预设位置可以根据实际情况设置,或者由用户设置,例如:将所 述有效信息关键字显示于待处理信息的上方。
可选地,在所述对提取的信息关键字进行归类,并根据归类结果确定所 述待处理信息对应的有效信息关键字之后,还包括:
对所述有效信息关键字进行同义词归一化处理,并对同义词归一化处理 后的有效信息关键字进行关键字合并处理;
所述将所述有效信息关键字显示在所述待处理信息的预设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
具体的,可以根据获取的大量同义词信息预先设置多组同义词,例如预 设同义词组“非常好”、“优秀”。利用上述预设设置的多组同义词对上述 有效信息关键字进行同义词归一化处理。可以显示同义词归一化处理后的结 果,方便相关人员查看。
在对所述有效信息关键字进行同义词归一化处理之后,还可以对同义词 归一化处理后的有效信息关键字进行关键字合并处理,具体的,可以对于多 次出现的关键字可以进行合并,例如“沟通能力优秀”出现两次,可以合并 为“沟通能力优秀*2”。
最后将关键字合并处理后的信息关键字显示在所述待处理信息的预设位 置处,方便用户阅读。
从上述描述可知,本公开实施例通过对待处理信息进行分词处理,根据 预设词库对分词处理后的待处理信息进行信息关键字提取,其中,预设词库 包括一个或多个预设信息关键字,对提取的信息关键字进行归类,并根据归 类结果确定待处理信息对应的有效信息关键字,将有效信息关键字显示在待 处理信息的预设位置处,能够使用户快速掌握上述待处理信息的要点和精髓, 以便更为快速和准确地做出相应处理,解决现有当信息的信息量较大,结构 化程度较低时,用户阅读信息需要花费较多时间,不容易找到重点,导致用户错过有价值的信息,进而无法有效利用信息,造成资源浪费的问题。
图3为本公开实施例提供的信息处理方法的流程示意图二,本公开实施 例在图2实施例的基础上,对本公开实施例的具体实现过程进行了详细说明。 在本公开实施例中,以待处理信息为面试记录为例,如图3所示,该方法包 括:
S301:对面试记录进行预处理,所述预处理包括去除预设字符。
这里,上述预处理出去除预设字符外,还可以根据实际情况设置其它预 处理方式,例如判断上述面试记录是否为文本信息,如果是执行后续步骤, 否则,将上述面试记录转换为文本信息。
S302:对预处理后的面试记录进行分词处理。
具体的,可以基于条件随机场或隐马尔可夫的分词模型对预处理后的面 试记录进行分词处理。
S303:根据胜任力素质词库对分词处理后的面试记录进行胜任力素质关 键字提取,且根据评价语词库对分词处理后的面试记录进行评价关键字提取, 其中,所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评 价语词库包括一个或多个预设评价关键字。
这里,如果多次提取均未提取到关键字,除可以提示消息中不包含相应 关键字外,还可以提示用户重新设置胜任力素质词库和/或评价语词库中的关 键字,并在用户重新设置胜任力素质词库和/或评价语词库中的关键字后,重 新执行步骤S303,满足多种应用场景需求。
S304:根据预设关键字与关键字类别的对应关系,确定提取的信息关键 字对应的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归 类。
具体的,如果根据预设关键字与关键字类别的对应关系,无法确定提取 的信息关键字对应的关键字类别,可以将提取的信息关键字发送给用户,还 可以将上述对应关系发送给用户,由用户根据接收的信息确定提取的信息关 键字对应的关键字类别。
S305:根据归类后每类信息关键字中字数最多的信息关键字,确定上述 面试记录对应的有效信息关键字。
其中,上述面试记录对应的有效信息关键字为归类后每类信息关键字中 字数最多的信息关键字,具体的,有效关键字还可以根据实际情况设置,例 如设置归类后每类信息关键字中字数达到预设阈值的信息关键字为有效关键 字。
S306:对上述有效信息关键字进行同义词归一化处理,并对同义词归一 化处理后的有效信息关键字进行关键字合并处理。
具体的,对上述有效信息关键字进行同义词转换处理,例如将“非常好”、 “很不错”等转换为“优秀”,并对同义词转换处理后的有效信息关键字进 行关键字合并处理,即将同义词转换处理后相同的有效信息关键字进行合并, 例如“沟通能力优秀”出现两次,可以合并为“沟通能力优秀*2”。
S307:将关键字合并处理后的信息关键字显示在上述面试记录的预设位 置处。
本公开实施例提供的信息处理方法,对面试记录进行分词处理,根据胜 任力素质词库和评价语词库对分词处理后的面试记录进行信息关键字提取, 对提取的信息关键字进行归类,并根据归类结果确定待处理信息对应的有效 信息关键字,对有效信息关键字进行同义词归一化处理,并对同义词归一化 处理后的有效信息关键字进行关键字合并处理,最后将关键字合并处理后的 信息关键字显示在待处理信息的预设位置处,能够使用户快速掌握面试记录 的要点和精髓,以便更为快速和准确地做出相应处理,有效利用信息,避免 资源浪费。
对应于上文实施例的信息处理方法,图4为本公开实施例提供的信息处 理设备的结构示意图。为了便于说明,仅示出了与本公开实施例相关的部分。 图4为本公开实施例提供的信息处理设备的结构示意图一。如图4所示,该 信息处理设备40包括:分词处理模块401、关键字提取模块402、关键字归 类模块403以及关键字显示模块404。
其中,分词处理模块401,用于对待处理信息进行分词处理。
关键字提取模块402,用于根据预设词库对分词处理后的待处理信息进 行信息关键字提取,所述预设词库包括一个或多个预设信息关键字。
关键字归类模块403,用于对提取的信息关键字进行归类,并根据归类 结果确定所述待处理信息对应的有效信息关键字。
关键字显示模块404,用于将所述有效信息关键字显示在所述待处理信 息的预设位置处。
本公开实施例提供的设备,可用于执行上述方法实施例的技术方案,其 实现原理和技术效果类似,本公开实施例此处不再赘述。
图5为本公开实施例提供的信息处理设备的结构示意图二。如图5所示, 本公开实施例在图4实施例的基础上,还包括:预处理模块405和关键字处 理模块406。
在一种可能的设计中,预处理模块405,用于在所述分词处理模块401 对待处理信息进行分词处理之前,对所述待处理信息进行预处理,所述预处 理包括去除预设字符。
在一种可能的设计中,所述分词处理模块401对待处理信息进行分词处 理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处 理。
在一种可能的设计中,所述预设词库包括胜任力素质词库和评价语词库, 所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评价语词 库包括一个或多个预设评价关键字;
所述关键字提取模块402根据预设词库对分词处理后的待处理信息进行 关键字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关 键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键 字提取。
在一种可能的设计中,所述关键字归类模块403对提取的信息关键字进 行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应 的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理 信息对应的有效信息关键字。
在一种可能的设计中,关键字处理模块406,用于在所述关键字归类模 块403对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息 对应的有效信息关键字之后,对所述有效信息关键字进行同义词归一化处理, 并对同义词归一化处理后的有效信息关键字进行关键字合并处理。
所述关键字显示模块404将所述有效信息关键字显示在所述待处理信息 的预设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
本公开实施例提供的设备,可用于执行上述方法实施例的技术方案,其 实现原理和技术效果类似,本公开实施例此处不再赘述。
参考图6,其示出了适于用来实现本公开实施例的电子设备的结构示意 图,该电子设备可以为终端设备或服务器。其中,终端设备可以包括但不限 于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、 便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如 车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终 端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使 用范围带来任何限制。
如图6所示,电子设备可以包括处理装置(例如中央处理器、图形处理 器等)601,其可以根据存储在只读存储器(Read Only Memory,简称ROM) 602中的程序或者从存储装置608加载到随机访问存储器(Random Access Memory,简称RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连 接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键 盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例 如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输 出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通 信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。 虽然图6示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现 为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包 括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程 图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信 装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的 方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介 质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介 质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系 统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例 子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、 硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读 存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、 光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算 机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令 执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可 读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承 载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括 但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质 还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信 号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或 者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当 的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任 意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存 在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程 序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作 的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言 或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地 在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部 分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远 程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(Local Area Network,简称LAN)或广域网(Wide Area Network,简称 WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特 网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、 程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以 以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可 以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能 而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图 中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来 实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可 以通过硬件的方式来实现。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对 其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并 不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
Claims (14)
1.一种信息处理方法,其特征在于,包括:
对待处理信息进行分词处理;
根据预设词库对分词处理后的待处理信息进行信息关键字提取,所述预设词库包括一个或多个预设信息关键字;
对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字;
将所述有效信息关键字显示在所述待处理信息的预设位置处。
2.根据权利要求1所述的方法,其特征在于,在所述对待处理信息进行分词处理之前,还包括:
对所述待处理信息进行预处理,所述预处理包括去除预设字符。
3.根据权利要求1所述的方法,其特征在于,所述对待处理信息进行分词处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处理。
4.根据权利要求1所述的方法,其特征在于,所述预设词库包括胜任力素质词库和评价语词库,所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评价语词库包括一个或多个预设评价关键字;
所述根据预设词库对分词处理后的待处理信息进行关键字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键字提取。
5.根据权利要求1所述的方法,其特征在于,所述对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理信息对应的有效信息关键字。
6.根据权利要求1所述的方法,其特征在于,在所述对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字之后,还包括:
对所述有效信息关键字进行同义词归一化处理,并对同义词归一化处理后的有效信息关键字进行关键字合并处理;
所述将所述有效信息关键字显示在所述待处理信息的预设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
7.一种信息处理设备,其特征在于,包括:
分词处理模块,用于对待处理信息进行分词处理;
关键字提取模块,用于根据预设词库对分词处理后的待处理信息进行信息关键字提取,所述预设词库包括一个或多个预设信息关键字;
关键字归类模块,用于对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字;
关键字显示模块,用于将所述有效信息关键字显示在所述待处理信息的预设位置处。
8.根据权利要求7所述的设备,其特征在于,还包括:
预处理模块,用于在所述分词处理模块对待处理信息进行分词处理之前,对所述待处理信息进行预处理,所述预处理包括去除预设字符。
9.根据权利要求7所述的设备,其特征在于,所述分词处理模块对待处理信息进行分词处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述待处理信息进行分词处理。
10.根据权利要求7所述的设备,其特征在于,所述预设词库包括胜任力素质词库和评价语词库,所述胜任力素质词库包括一个或多个预设胜任力素质关键字,所述评价语词库包括一个或多个预设评价关键字;
所述关键字提取模块根据预设词库对分词处理后的待处理信息进行关键字提取,包括:
根据所述胜任力素质词库对分词处理后的待处理信息进行胜任力素质关键字提取,且根据所述评价语词库对分词处理后的待处理信息进行评价关键字提取。
11.根据权利要求7所述的设备,其特征在于,所述关键字归类模块对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字,包括:
根据预设关键字与关键字类别的对应关系,确定提取的信息关键字对应的关键字类别,并根据确定的关键字类别对提取的信息关键字进行归类;
根据归类后每类信息关键字中字数最多的信息关键字,确定所述待处理信息对应的有效信息关键字。
12.根据权利要求7所述的设备,其特征在于,还包括:
关键字处理模块,用于在所述关键字归类模块对提取的信息关键字进行归类,并根据归类结果确定所述待处理信息对应的有效信息关键字之后,对所述有效信息关键字进行同义词归一化处理,并对同义词归一化处理后的有效信息关键字进行关键字合并处理;
所述关键字显示模块将所述有效信息关键字显示在所述待处理信息的预设位置处,包括:
将关键字合并处理后的信息关键字显示在所述待处理信息的预设位置处。
13.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的信息处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910700005.8A CN110502630B (zh) | 2019-07-31 | 2019-07-31 | 信息处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910700005.8A CN110502630B (zh) | 2019-07-31 | 2019-07-31 | 信息处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502630A true CN110502630A (zh) | 2019-11-26 |
CN110502630B CN110502630B (zh) | 2022-04-15 |
Family
ID=68586880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910700005.8A Active CN110502630B (zh) | 2019-07-31 | 2019-07-31 | 信息处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502630B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580364A (zh) * | 2020-12-25 | 2021-03-30 | 中国工商银行股份有限公司 | 金融市场资讯信息处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324612A (zh) * | 2012-03-22 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种分词的方法及装置 |
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105824833A (zh) * | 2015-01-07 | 2016-08-03 | 苏宁云商集团股份有限公司 | 基于用户行为反馈的关键词推荐方法和系统 |
CN106649422A (zh) * | 2016-06-12 | 2017-05-10 | 中国移动通信集团湖北有限公司 | 关键词提取方法及装置 |
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
JP2019003472A (ja) * | 2017-06-16 | 2019-01-10 | 株式会社プリマジェスト | 情報処理装置及び情報処理方法 |
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
-
2019
- 2019-07-31 CN CN201910700005.8A patent/CN110502630B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324612A (zh) * | 2012-03-22 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种分词的方法及装置 |
CN105824833A (zh) * | 2015-01-07 | 2016-08-03 | 苏宁云商集团股份有限公司 | 基于用户行为反馈的关键词推荐方法和系统 |
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106649422A (zh) * | 2016-06-12 | 2017-05-10 | 中国移动通信集团湖北有限公司 | 关键词提取方法及装置 |
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
JP2019003472A (ja) * | 2017-06-16 | 2019-01-10 | 株式会社プリマジェスト | 情報処理装置及び情報処理方法 |
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580364A (zh) * | 2020-12-25 | 2021-03-30 | 中国工商银行股份有限公司 | 金融市场资讯信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110502630B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906380B (zh) | 文本中角色的识别方法、装置、可读介质和电子设备 | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
CN111177319A (zh) | 风险事件的确定方法、装置、电子设备和存储介质 | |
CN111539212A (zh) | 文本信息处理方法、装置、存储介质及电子设备 | |
CN112906381B (zh) | 对话归属的识别方法、装置、可读介质和电子设备 | |
CN109992653A (zh) | 信息处理方法和处理系统 | |
CN112989800A (zh) | 基于Bert的篇章的多意图识别方法、设备及可读存储介质 | |
CN109582954A (zh) | 用于输出信息的方法和装置 | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
US20240079002A1 (en) | Minutes of meeting processing method and apparatus, device, and medium | |
CN110516261A (zh) | 简历评估方法、装置、电子设备及计算机存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN115270717A (zh) | 一种立场检测方法、装置、设备及介质 | |
CN107766498A (zh) | 用于生成信息的方法和装置 | |
CN112966509B (zh) | 文本质量评估方法、装置、存储介质及计算机设备 | |
CN111859970B (zh) | 用于处理信息的方法、装置、设备和介质 | |
CN110502630A (zh) | 信息处理方法及设备 | |
CN112889066A (zh) | 用于学习词和多词表达的特性的分类引擎 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN115563281A (zh) | 基于文本数据增强的文本分类方法及装置 | |
CN110263135A (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN113505596A (zh) | 话题切换标记方法、装置及计算机设备 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN113434695A (zh) | 金融事件抽取方法、装置、电子设备及存储介质 | |
CN112699687A (zh) | 内容编目方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |