CN109344232A - 一种舆情信息检索方法及终端设备 - Google Patents
一种舆情信息检索方法及终端设备 Download PDFInfo
- Publication number
- CN109344232A CN109344232A CN201811343957.0A CN201811343957A CN109344232A CN 109344232 A CN109344232 A CN 109344232A CN 201811343957 A CN201811343957 A CN 201811343957A CN 109344232 A CN109344232 A CN 109344232A
- Authority
- CN
- China
- Prior art keywords
- public feelings
- feelings information
- user
- information
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000875 corresponding effect Effects 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000002596 correlated effect Effects 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000012216 screening Methods 0.000 description 6
- 239000000243 solution Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种舆情信息检索方法及终端设备,适用于数据处理技术领域,该方法包括:获取用户的语音数据,并识别语音数据的文字内容;基于语音数据对用户进行身份识别,并根据身份识别结果查找用户的用户信息;对用户信息进行分析,确定出用户对每种舆情信息类型的第一偏好分数;基于文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于多条舆情信息的舆情信息类型以及第一偏好分数,对多条舆情信息进行排序后,作为检索结果输出。本发明实施例保证了最终输出的用户看到的舆情信息都是用户实际偏好所需的,实现了对舆情信息准确有效的检索。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及舆情信息检索方法及终端设备。
背景技术
在使用舆情系统进行舆情信息检索时,由于不同的用户的舆情关注点不同,因此即使对相同的主题/关键词的检索,不同用户实际所需的舆情信息也会有所不同,而现有技术都是直接根据主题/关键词对舆情信息的信息文本内容进行筛选输出,只要是主题/关键词相同得到的结果都是一样的,因此用户还需要在输出的大量舆情信息中手动查找所需的信息,因此现有技术无法满足不同用户的实际需求。
发明内容
有鉴于此,本发明实施例提供了一种舆情信息检索方法及终端设备,以解决现有技术中舆情信息检索方法准确性和有效性较低,无法满足不同用户的实际需求的问题。
本发明实施例的第一方面提供了一种舆情信息检索方法,包括:
获取用户的语音数据,并识别所述语音数据的文字内容;
基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
本发明实施例的第二方面提供了一种终端设备,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。
获取用户的语音数据,并识别所述语音数据的文字内容;
基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
本发明实施例的第三方面提供了一种舆情信息检索装置,包括:
文字识别模块,用于获取用户的语音数据,并识别所述语音数据的文字内容;
用户信息查找模块,用于基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
偏好分析模块,用于对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
舆情信息检索模块,用于基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的舆情信息检索方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:基于用户输入的语音数据来实现对用户身份的识别,并根据用户的用户信息来确定出其对每一类舆情信息的偏好情况,再在根据语音数据的文字内容完成对舆情信息的检索后,根据对每一类舆情信息的偏好情况对检索结果中的舆情信息进行排序输出,从而保证了最终输出的用户看到的舆情信息,都是用户实际偏好所需的,实现了对舆情信息准确有效的检索,满足了用户个性化的实际需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的舆情信息检索方法的实现流程示意图;
图2是本发明实施例二提供的舆情信息检索方法的实现流程示意图;
图3是本发明实施例三提供的舆情信息检索方法的实现流程示意图;
图4是本发明实施例四提供的舆情信息检索方法的实现流程示意图;
图5是本发明实施例五提供的舆情信息检索方法的实现流程示意图;
图6是本发明实施例六提供的舆情信息检索方法的实现流程示意图;
图7是本发明实施例七提供的舆情信息检索装置的结构示意图;
图8是本发明实施例八提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
为了便于理解,此处先对本发明进行简要说明:由于现在的舆情信息检索都是仅根据用户输入的主题/关键词来进行学习文本内容的筛选输出的,无法满足不同用户的实际需求,因此为了充分满足不同用户的实际需求,本发明实施例中首先会通过用户声纹来确定出用户的身份,再根据用户的信息来确定出用户对各类舆情信息的偏好,最后再根据用户的实际偏好对检索出来的舆情信息进行排序输出,从而使得本发明实施例实现了针对用户个性化的舆情信息偏好需求进行检索输出的目的,使得用户能优先查阅到自己实际需舆情信息,同时,为了进一步地增强对检索的精确性,本发明实施例中还会针对用户的偏好,个性化地定制用户对应的舆情信息检索深度和范围,并对用户偏好的舆情信息进行处理器资源的偏置和检索算法的针对设置,极大地提高了对用户偏好的舆情信息检索准确率,保证了舆情信息检索的准确性和有效性,详述如下:
图1示出了本发明实施例一提供的舆情信息检索方法的实现流程图,详述如下:
S101,获取用户的语音数据,并识别语音数据的文字内容。
S102,基于语音数据对用户进行身份识别,并根据身份识别结果查找用户的用户信息。
现在的舆情系统都是需要用户手动进行身份验证登录账户,当检索的环境中存在多名用户时,往往难以进行用户区分,更无法根据不同用户的需求来进行,因此为了保证后续对舆情信息的精确检索,满足不同用户的实际需求,在本发明实施例中会基于声纹对用户的身份进行识别,并针对用户进行后续的舆情信息检索和排序等工作,用户只需说出自己所需检索的内容而无需登录舆情系统,检索的效率更高,且可以实现多用户检索的快速准确切换。其中具体的声纹识别方法以及语音识别方法可由技术人员自行选取,包括但不限于如GMM-UBM等声纹识别系统进行声纹识别,使用GMM-HMM等语音识别模型进行语音识别,此处不予限定。
本发明实施例中的用户信息包括用户的性别、年龄和职业等个人信息以及用户的检索记录,其中个人信息由用户在舆情系统注册或首次使用时填写,检索记录由舆情系统对用户的检索操作进行记录得到。
S103,对用户信息进行分析,确定出用户对每种舆情信息类型的第一偏好分数。
其中,对舆情信息的分类可由技术人员自行设定,如可以根据舆情信息的主体种类来进行分类,将舆情信息划分为体育、娱乐、社会和时政等类型。考虑到实际情况中不同用户对舆情信息类型的偏好不一,如有些人喜欢关注娱乐方面的舆情信息,有些则喜欢关注体育方面的舆情信息,因此本发明实施例会对用户的偏好类型进行分析,而实际应用中发现,用户的偏好最直接体现在用户日常对舆情信息的检索记录上,同时用户的性别、年龄以及职业等也极大地影响着用户的实际偏好,因此本发明实施例中在进行用户偏好分析时,会对用户的性别、年龄和职业等个人信息以及用户的检索记录进行综合分析。
考虑到基于用户个人信息和检索记录来实现对用户偏好的方法较多,技术人员既可以使用一些复杂模型来进行训练分析,也可以使用一些如权重计算的方法来进行简化分析计算,因此此处不对具体使用的分析方法进行限定,可由技术人员根据实际需求自行设定。
作为本发明进行用户偏好分析的一种具体实现方式,在本发明实施例中,首先会根据用户检索记录中每种类型的舆情信息的次数进行统计,并根据次数多少进行评分排序,再根据用户的个人信息对评分进行权重调整,以更新最终分数排序,得到用户对各类型的舆情信息的最终偏好分数。
S104,基于文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于多条舆情信息的舆情信息类型以及第一偏好分数,对多条舆情信息进行排序后,作为检索结果输出。
在确定出用户对各类型的舆情信息的偏好分数后,本发明实施例根据语音识别出的文字内容来对舆情信息库进行检索,确定出匹配的多条舆情信息,再根据各个舆情信息的类型对应的偏好分数从高到低来进行排序,在输出检索结果时将用户偏好类型的舆情信息来进行优先输出,即偏好分数与用户对舆情信息类型的偏好成正比,优先将偏好分数高的类型的舆情信息进行输出,以使得用户能优先看到自己所需的舆情信息。
本发明实施例基于用户输入的语音数据来实现对用户身份的识别,并根据用户的用户信息来确定出其对每一类舆情信息的偏好情况,再在根据语音数据的文字内容完成对舆情信息的检索后,根据对每一类舆情信息的偏好情况对检索结果中的舆情信息进行排序输出,从而保证了最终输出的用户看到的舆情信息,都是用户实际偏好所需的,实现了对舆情信息准确有效的检索,满足了用户个性化的实际需求。
作为本发明实施例一中对进行用户偏好分析的一种具体实现方式,考虑到实际情况中相似用户对舆情信息的偏好也较为相似,如女性一般对娱乐的舆情信息关注比较高,而男性则一般对社会、体育等的舆情信息关注比较高,因此本发明实施例中利用用户的个人信息来进行相似用户的查找,并会基于相似用户对各类型舆情信息的偏好情况来调整用户对舆情信息的偏好分数,如图2所示,本发明实施例二,包括:
S201,对历史检索记录进行分析,得到用户对每种舆情信息类型的第二偏好分数。
本发明实施例首先会根据用户实际的检索记录来进行用户第二偏好分数的计算,这里可以采用统计用户对每一类型的舆情信息的检索次数,并根据检索次数多少来进行评分的方式,实现对第二偏好分数的计算。具体的,包括但不限于如直接将检索次数作为对应类型的舆情信息的第二偏好分数,或者预先设置几个次数区间阈值,以及每个次数区间阈值分别对应的第二偏好分数,再根据每类型舆情信息的次数的区间,来确定出其对应的第二偏好分数。
S202,筛选出与用户的个人信息相似度高于预设信息阈值的相似用户,并对相似用户的对每种舆情信息类型的偏好分数进行处理,得到用户对每种舆情信息类型的第三偏好分数。
由于本发明实施例中每个用户都具有对应的个人信息,因此只要根据这些个人信息来进行匹配,即可筛选出与用户对应的相似用户,如其中预设信息阈值的具体值大小可由技术人员自行设定。
在确定出对应的相似用户之后,再读取出这些相似用户对每种类型的舆情信息的第三偏好分数,其中,相似用户的第三偏好分数既可以是由技术人员手动标注的,也可以是由舆情系统对每个相似用户分析处理后得到的。考虑到本发明实施例中对用户的偏好分数计算需要参考到相似用户的情况,对于相似用户而言可能难以直接计算得到其对应的偏好分数,因此本发明实施例中,优选地,第三偏好分数可以是对相似用户的检索记录分析得到的偏好分数,即可以是相似用户的第二偏好分数。
S203,基于第二偏好分数以及第三偏好分数进行处理,得到用户对每种舆情信息类型的第一偏好分数。
在得到两个偏好分数之后对两者进行综合分析,即可得到用户对每种类型的舆情信息的总偏好分数,其中具体的综合分析方法包括但不限于如为两个偏好分数设置对应的权重系数,再进行权重计算得到最终的偏好分数,具体可由技术人员自行选取综合分析方法。
作为上述本发明实施例中对预设舆情信息库进行检索得到多条舆情信息的一种具体实现方式,上述本发明实施例中都是直接根据文字内容对舆情信息库进行全库的舆情信息检索,但实际情况中,用户对不同类型的舆情信息的偏好不同,对于较为喜欢的类型,用户一般希望检索结果中能够看到更多的相关舆情信息,而对于一些相对没那么喜欢的类型,则希望少看到甚至不想看到相关的舆情信息,因此若直接进行全库检索,可能会导致最终输出的检索结果中用户实际喜欢的舆情信息较少,但不喜欢的舆情信息却比较多的情况,不利于实现最终对舆情信息检索的准确性,难以满足用户的实际需求,因此,为了提高最终检索结果的准确性,实现针对用户实际需求的准确有效检索,如图3所示,本发明实施例三,包括:
S301,基于第一偏好分数,筛选出用户在预设舆情信息库中对每种舆情信息类型分别对应的第一舆情信息集,其中,第一舆情信息集中包含的舆情信息数量与第一偏好分数正相关。
为了尽可能地提高最终输出结果中用户喜欢的舆情信息的比例,在本发明实施例针对用户对不同类型的舆情信息偏好情况的不同,设置了包含不同的舆情信息检索数量舆情信息集,且偏好分数越高的舆情信息类型,对应的舆情信息集包含的舆情信息数量越多。其中,由于舆情信息来源渠道是各个相关的信息源网站,如体育相关的舆情信息来源于大大小小的多个体育网站,信息源网站越多则可获取到的舆情信息数量越大,因此,为了实现对舆情信息集中包含的舆情信息数量的调控,本发明实施例中采用了对舆情信息信息源网站数量调控的方式,对于偏好分数越高的舆情信息类型设置对应的信息源网站越多,使得得到的舆情信息集所包含的舆情信息数量也就越多,具体偏好分数与信息源网站数量的对应关系可由技术人员根据实际需求进行设定,此处不予限定。
S302,获取第一偏好分数分别对应的预设检索时间段,并基于预设检索时间段以及信息创建时间对第一舆情信息集中舆情信息进行筛选,得到筛选后每种舆情信息类型分别对应的第二舆情信息集,其中,预设检索时间段的终止点均为当前时刻,预设检索时间段的长度与第一偏好分数正相关。
实际应用中在对信息源网站获取舆情信息时,一般获取的舆情信息的信息创建时间跨度(即预设检索时间段的长度)较大,从而使得从每个信息源网站获取到的舆情信息数量都比较多。为了尽可能地提高最终输出结果中用户喜欢的舆情信息的比例,在上述进行信息源网站的筛选的基础上,本发明实施例还会进一步地对舆情信息的信息创建时间进行筛选,由于信息创建时间跨度越大其对应包含的舆情信息的数量也就越多,因此,对于用户喜欢的舆情信息类型,本发明实施例会设置更长的信息创建时间跨度来进行逾期信息筛选,以保证能获取更多的舆情信息,而对于用户相对没那么喜欢的舆情信息类型,则设置较短的信息创建时间跨度进行筛选,以减少对应的舆情信息数量。其中各舆情信息类型对应的具体的预设时间段可由技术人员自行设定。
S303,基于文字内容对第二舆情信息集进行检索,得到多条舆情信息。
在经过信息源网站和信息创建时间跨度两重叠加筛选之后,得到对应的第二舆情信息集,由于第二舆情信息集中包含的偏好分数高类型的舆情信息数量,大于偏好分数低类型的舆情信息数量,因此对其进行检索,可以尽可能地提高最终输出结果中用户喜欢的舆情信息的比例,满足用户的个性化实际需求,保证了对检索的准确性和有效性。
作为上述本发明实施例中对舆情信息进行舆情信息库匹配检索的一种具体实现方式,如图4所示,本发明实施例四,包括:
S401,对文字内容进行词性分析,将其中的名词和动词提取为关键词。
由于用户输入的检索文字内容一般都较长,直接进行全文匹配检索的话工作量大效率较低,因此为了提高检索效率,本发明实施例中不会对文字内容进行全文匹配,而是对其中包含的关键词进行文本匹配。
S402,从预设舆情信息库筛选出包含关键词的舆情信息。
其中,本发明实施例中的预设舆情信息库检索范围根据对应结合的本发明实施例而定,如若将本发明实施例应用至本发明实施例一,则本发明实施例中的预设舆情信息库检索范围为全库,而若将本发明实施例应用至本发明实施例三,则本发明实施例中的预设舆情信息库检索范围为本发明实施例三筛选得到的第二舆情信息集。这里会基于提取出的关键词对舆情信息进行全文检索,筛选出信息全文中包含上述提取出的关键词的舆情信息。
S403,基于关键词在舆情信息中的文本位置,对包含关键词的舆情信息进行信息相关度评分。
本发明实施例会根据舆情信息中不同位置文本内容的重要程度的不同,对舆情信息的信息文本内容根据对应的文本位置进行划分,并对每个不同的文本位置的文本内容设定对应的相关分数设定,如可以将舆情信息的信息文本内容划分为摘要和正文,并对摘要和正文设定不同的相关分数,再根据关键词是在摘要中还是在正文中计算出每个关键词对应的相关分数,最后将这些相关分数求和,得到最终信息相关度评分。其中具体对舆情信息文本位置的划分规则,以及每个文本位置的文本内容对应的相关分数,均可由技术人员根据实际需求进行设定,此处不予限定。
S404,筛选出相关度评分最高的预设数量的舆情信息,得到多条舆情信息。
由于匹配成功的舆情信息数量理论上无法预知,因此为了从中找出对用户最有价值一些的舆情信息,以保证最终输出的检索结果的准确有效,本发明实施例中会根据上述得到的每条舆情信息的相关度评分来进行排序,并仅保留部分相关度评分较高的舆情信息,其中预设数量的具体值可由技术人员根据需求自行设定。
作为上述本发明实施例中对预设舆情信息库进行检索得到多条舆情信息的一种具体实现方式,在对某一条舆情信息进行检索时,考虑到舆情信息全文包含的信息文本内容可能较多,若直接对其进行全文匹配的话工作量大效率较低,因此,为了提高检索效率,如图5所示,本发明实施例五,包括:
S501,基于第一偏好分数,筛选出用户在信息文本内容中对应的文本内容集合,其中,文本内容集合中包含的文本内容量与第一偏好分数正相关。
其中,文本内容集合即为在舆情信息的信息文本内容中待检索的范围内的文本内容的集合,如若仅需检索信息文本内容中的摘要,则该文本内容集合即为摘要的文本内容的集合。为了减小匹配的工作量提高效率,本发明实施例中并未直接对舆情信息的全文进行检索,而是根据用户偏好分数的实际情况,对不同的偏好分数设定了在信息文本内容中对应的不同检索范围,对于偏好分数低的舆情信息类型而言,无需耗费过多的资源进行检索,因此仅需对信息文本内容中部分内容进行检索,如可以仅对信息文本内容中的摘要进行检索,而对偏好分数较高的舆情信息类型而言,则需要增加对应的检索范围,如可以将摘要+正文作为检索范围。其中偏好分数与在信息文本内容的检索范围的具体对应关系可由技术人员自行设定,但应当保证不同的偏好分数对应的检索范围不能完全相同。
S502,基于文字内容对文本内容集合进行检索,以判断该舆情信息是否满足检索要求。
在根据舆情信息类型对应的偏好分数确定出用户在某一舆情信息的检索范围之后,根据此检索范围来实现对该舆情信息的分别检索,判断该舆情信息是否与用户输入的文字内容匹配,如若确定出某一舆情信息对应的检索范围为摘要,此时仅会对其摘要内包含的文本内容集合进行检索,判断摘要是否包含用户输入的文字内容,若包含则判断该舆情信息满足检索要求,不包含则判断为不满足检索要求。
作为上述本发明实施例中对预设舆情信息库进行检索得到多条舆情信息的一种具体实现方式,考虑到上述本发明实施例三中对不同偏好分数对应的舆情信息数量进行了划分,对于偏好分数高的类型的舆情信息数据量会明显大于偏好分数低的,因此对于偏好分数高的类型而言,其包含的舆情信息数据量更大,检索所需耗费的工作量更大,因此,为了提高对舆情信息的检索效率,本发明实施例中会根据实际所需检索的舆情信息的数据量,来进行处理器资源和文本检索算法的匹配,以提高检索的效率,保证检索的准确有效,如图6所示,本发明实施例六,包括:
S601,根据每个第二舆情信息集包含的数据量分配对应的处理器资源数以及预设文本检索算法,其中,处理器资源数与第二舆情信息集包含的数据量成正比。
S602,基于每个第二舆情信息集分别对应的处理器资源数以及文本检索算法,对第二舆情信息集进行文字内容的检索,得到多条舆情信息。
其中,处理器资源数是指处理器分配给对每个第二舆情信息集进行检索时的内存大小以及线程数量,当第二舆情信息集包含的数据量越大时,说明对其进行检索的工作量越大,因此为了提高检索效率,本发明实施例中会分配更多的内存以及更多的线程来对该第二舆情信息集进行检索处理。同时考虑到实际情况中当需要检索的舆情信息的数据量较大时,需要针对性的使用一些大数据检索算法才能保证检索的效率,在本发明实施例中虽然对不同类型的舆情信息对应的检索数据量进行了筛选,但对于偏好分数较高的舆情信息类型实际筛选力度并不大,而是既可能地保留偏好分数较高的舆情信息类型,以保证后续检索结果的准确有效,因此对于偏好分数较高的舆情信息类型而言,其对应的第二舆情信息集所包含的舆情信息数据量一般都比较大,因此为了保证对不同数据量的第二舆情信息集的正常检索,本发明实施例中还会预设一些针对不同数据量的文本检索算法,如专门针对大数据量文本检索算法,并根据每个第二舆情信息集的实际情况来选取对应的文本检索算法,以保证最终的检索效率。其中,考虑到现有技术中已有较多针对不同数据量的文本检索算法,因此此处不对具体预设的文本检索算法进行限定,可由技术人员根据实际需求进行设定。
在本发明实施例中,基于用户输入的语音数据来实现对用户身份的识别,并根据用户的用户信息来确定出其对每一类舆情信息的偏好情况,再在根据语音数据的文字内容完成对舆情信息的检索后,根据对每一类舆情信息的偏好情况对检索结果中的舆情信息进行排序输出,从而保证了最终输出的用户看到的舆情信息都是用户实际偏好所需的,实现了对舆情信息准确有效的检索,满足了用户个性化的实际需求。同时,为了进一步地增强对检索的精确性,本发明实施例中还会针对用户的偏好,个性化地定制用户对应的舆情信息检索深度和范围,并对用户偏好的舆情信息进行处理器资源的偏置和检索算法的针对设置,极大地提高了对用户偏好的舆情信息检索准确率,保证了舆情信息检索的准确性和有效性。
对应于上文实施例的方法,图7示出了本发明实施例提供的舆情信息检索装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图7示例的舆情信息检索装置可以是前述实施例一提供的舆情信息检索方法的执行主体。
参照图7,该舆情信息检索装置包括:
文字识别模块71,用于获取用户的语音数据,并识别所述语音数据的文字内容。
用户信息查找模块72,用于基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息。
偏好分析模块73,用于对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数。
舆情信息检索模块74,用于基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
进一步地,偏好分析模块73,包括:
对所述历史检索记录进行分析,得到所述用户对每种舆情信息类型的第二偏好分数。
筛选出与所述用户的所述个人信息相似度高于预设信息阈值的相似用户,并对所述相似用户的对每种舆情信息类型的偏好分数进行处理,得到所述用户对每种舆情信息类型的第三偏好分数。
基于所述第二偏好分数以及所述第三偏好分数进行处理,得到所述用户对每种舆情信息类型的所述第一偏好分数。
进一步地,舆情信息检索模块74,包括:
基于所述第一偏好分数,筛选出所述用户在所述预设舆情信息库中对每种舆情信息类型分别对应的第一舆情信息集,其中,第一舆情信息集中包含的舆情信息数量与第一偏好分数正相关。
获取所述第一偏好分数分别对应的预设检索时间段,并基于所述预设检索时间段以及所述信息创建时间对所述第一舆情信息集中舆情信息进行筛选,得到筛选后每种舆情信息类型分别对应的第二舆情信息集,其中,预设检索时间段的终止点均为当前时刻,预设检索时间段的长度与第一偏好分数正相关。
基于所述文字内容对所述第二舆情信息集进行检索,得到所述多条舆情信息。
进一步地,舆情信息检索模块74,包括:
对所述文字内容进行词性分析,将其中的名词和动词提取为关键词。
从所述预设舆情信息库筛选出包含所述关键词的舆情信息。
基于所述关键词在舆情信息中的文本位置,对包含所述关键词的舆情信息进行信息相关度评分。
筛选出所述相关度评分最高的预设数量的舆情信息,得到所述多条舆情信息。
进一步地,舆情信息检索模块74,包括:
基于所述第一偏好分数,筛选出所述用户在所述信息文本内容中对应的文本内容集合,其中,文本内容集合中包含的文本内容量与第一偏好分数正相关。
基于所述文字内容对所述文本内容集合进行检索,以判断该舆情信息是否满足检索要求。
进一步地,舆情信息检索模块74,包括:
根据每个所述第二舆情信息集包含的数据量分配对应的处理器资源数以及预设文本检索算法,其中,处理器资源数与第二舆情信息集包含的数据量成正比。
基于每个所述第二舆情信息集分别对应的所述处理器资源数以及所述文本检索算法,对所述第二舆情信息集进行所述文字内容的检索,得到所述多条舆情信息。
本发明实施例提供的舆情信息检索装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一表格可以被命名为第二表格,并且类似地,第二表格可以被命名为第一表格,而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格,但是它们不是同一表格。
图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备8包括:处理器80、存储器81,所述存储器81中存储有可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述各个舆情信息检索方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块71至74的功能。
所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是终端设备8的示例,并不构成对终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种舆情信息检索方法,其特征在于,包括:
获取用户的语音数据,并识别所述语音数据的文字内容;
基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
2.如权利要求1所述的舆情信息检索方法,其特征在于,所述用户信息中包含所述用户的历史检索记录以及个人信息,所述对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数,包括:
对所述历史检索记录进行分析,得到所述用户对每种舆情信息类型的第二偏好分数;
筛选出与所述用户的所述个人信息相似度高于预设信息阈值的相似用户,并对所述相似用户的对每种舆情信息类型的偏好分数进行处理,得到所述用户对每种舆情信息类型的第三偏好分数;
基于所述第二偏好分数以及所述第三偏好分数进行处理,得到所述用户对每种舆情信息类型的所述第一偏好分数。
3.如权利要求1所述的舆情信息检索方法,其特征在于,舆情信息中包含信息创建时间,所述基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,还包括:
基于所述第一偏好分数,筛选出所述用户在所述预设舆情信息库中对每种舆情信息类型分别对应的第一舆情信息集,其中,第一舆情信息集中包含的舆情信息数量与第一偏好分数正相关;
获取所述第一偏好分数分别对应的预设检索时间段,并基于所述预设检索时间段以及所述信息创建时间对所述第一舆情信息集中舆情信息进行筛选,得到筛选后每种舆情信息类型分别对应的第二舆情信息集,其中,预设检索时间段的终止点均为当前时刻,预设检索时间段的长度与第一偏好分数正相关;
基于所述文字内容对所述第二舆情信息集进行检索,得到所述多条舆情信息。
4.如权利要求1至3任意一项所述的舆情信息检索方法,其特征在于,所述基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,还包括:
对所述文字内容进行词性分析,将其中的名词和动词提取为关键词;
从所述预设舆情信息库筛选出包含所述关键词的舆情信息;
基于所述关键词在舆情信息中的文本位置,对包含所述关键词的舆情信息进行信息相关度评分;
筛选出所述相关度评分最高的预设数量的舆情信息,得到所述多条舆情信息。
5.如权利要求1至3任意一项所述的舆情信息检索方法,其特征在于,舆情信息中包含信息文本内容,所述基于所述文字内容对预设舆情信息库进行检索中,在对单条舆情信息进行检索时,包括:
基于所述第一偏好分数,筛选出所述用户在所述信息文本内容中对应的文本内容集合,其中,文本内容集合中包含的文本内容量与第一偏好分数正相关;
基于所述文字内容对所述文本内容集合进行检索,以判断该舆情信息是否满足检索要求。
6.如权利要求3所述的舆情信息检索方法,其特征在于,所述基于所述文字内容对所述第二舆情信息集进行检索,得到所述多条舆情信息,还包括:
根据每个所述第二舆情信息集包含的数据量分配对应的处理器资源数以及预设文本检索算法,其中,处理器资源数与第二舆情信息集包含的数据量成正比;
基于每个所述第二舆情信息集分别对应的所述处理器资源数以及所述文本检索算法,对所述第二舆情信息集进行所述文字内容的检索,得到所述多条舆情信息。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取用户的语音数据,并识别所述语音数据的文字内容;
基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
8.如权利要求6所述的终端设备,其特征在于,所述用户信息中包含所述用户的历史检索记录以及个人信息,所述对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数,包括:
对所述历史检索记录进行分析,得到所述用户对每种舆情信息类型的第二偏好分数;
筛选出与所述用户的所述个人信息相似度高于预设信息阈值的相似用户,并对所述相似用户的对每种舆情信息类型的偏好分数进行处理,得到所述用户对每种舆情信息类型的第三偏好分数;
基于所述第二偏好分数以及所述第三偏好分数进行处理,得到所述用户对每种舆情信息类型的所述第一偏好分数。
9.一种舆情信息检索装置,其特征在于,包括:
文字识别模块,用于获取用户的语音数据,并识别所述语音数据的文字内容;
用户信息查找模块,用于基于所述语音数据对所述用户进行身份识别,并根据身份识别结果查找所述用户的用户信息;
偏好分析模块,用于对所述用户信息进行分析,确定出所述用户对每种舆情信息类型的第一偏好分数;
舆情信息检索模块,用于基于所述文字内容对预设舆情信息库进行检索,得到多条舆情信息,并基于所述多条舆情信息的舆情信息类型以及所述第一偏好分数,对所述多条舆情信息进行排序后,作为检索结果输出。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343957.0A CN109344232B (zh) | 2018-11-13 | 2018-11-13 | 一种舆情信息检索方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343957.0A CN109344232B (zh) | 2018-11-13 | 2018-11-13 | 一种舆情信息检索方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344232A true CN109344232A (zh) | 2019-02-15 |
CN109344232B CN109344232B (zh) | 2024-03-15 |
Family
ID=65314662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811343957.0A Active CN109344232B (zh) | 2018-11-13 | 2018-11-13 | 一种舆情信息检索方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344232B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109819122A (zh) * | 2019-03-12 | 2019-05-28 | 安徽赛迪信息技术有限公司 | 一种客户信息分析系统 |
CN110502692A (zh) * | 2019-07-10 | 2019-11-26 | 平安普惠企业管理有限公司 | 基于搜索引擎的信息检索方法、装置、设备和存储介质 |
CN110674383A (zh) * | 2019-09-26 | 2020-01-10 | 支付宝(杭州)信息技术有限公司 | 舆情查询方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046887A1 (en) * | 1999-12-23 | 2001-06-28 | My-E-Surveys.Com, Llc | System and methods for internet commerce and communication based on customer interaction and preferences |
CN104732969A (zh) * | 2013-12-23 | 2015-06-24 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
KR20150084217A (ko) * | 2014-01-13 | 2015-07-22 | 에스케이플래닛 주식회사 | 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN108241756A (zh) * | 2018-03-05 | 2018-07-03 | 无锡市翱宇特新科技发展有限公司 | 一种舆论情报搜集和检索系统 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
-
2018
- 2018-11-13 CN CN201811343957.0A patent/CN109344232B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046887A1 (en) * | 1999-12-23 | 2001-06-28 | My-E-Surveys.Com, Llc | System and methods for internet commerce and communication based on customer interaction and preferences |
CN104732969A (zh) * | 2013-12-23 | 2015-06-24 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
KR20150084217A (ko) * | 2014-01-13 | 2015-07-22 | 에스케이플래닛 주식회사 | 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN108241756A (zh) * | 2018-03-05 | 2018-07-03 | 无锡市翱宇特新科技发展有限公司 | 一种舆论情报搜集和检索系统 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109819122A (zh) * | 2019-03-12 | 2019-05-28 | 安徽赛迪信息技术有限公司 | 一种客户信息分析系统 |
CN110502692A (zh) * | 2019-07-10 | 2019-11-26 | 平安普惠企业管理有限公司 | 基于搜索引擎的信息检索方法、装置、设备和存储介质 |
CN110502692B (zh) * | 2019-07-10 | 2023-02-03 | 平安普惠企业管理有限公司 | 基于搜索引擎的信息检索方法、装置、设备和存储介质 |
CN110674383A (zh) * | 2019-09-26 | 2020-01-10 | 支付宝(杭州)信息技术有限公司 | 舆情查询方法、装置及设备 |
CN110674383B (zh) * | 2019-09-26 | 2022-07-12 | 支付宝(杭州)信息技术有限公司 | 舆情查询方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109344232B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
US20180129749A1 (en) | Method, apparatus, and system for recommending real-time information | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
Fang et al. | Topics in tweets: A user study of topic coherence metrics for Twitter data | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
CN111026868B (zh) | 一种多维度舆情危机预测方法、终端设备及存储介质 | |
CN108665148B (zh) | 一种电子资源质量评价方法、装置和存储介质 | |
CN113934941B (zh) | 一种基于多维度信息的用户推荐系统及方法 | |
US20200250212A1 (en) | Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
TW201923629A (zh) | 資料處理方法及裝置 | |
CN109344232A (zh) | 一种舆情信息检索方法及终端设备 | |
CN111737558A (zh) | 一种资讯推荐方法、装置及计算机可读存储介质 | |
CN109558384A (zh) | 日志分类方法、装置、电子设备和存储介质 | |
US20180005248A1 (en) | Product, operating system and topic based | |
US11822875B2 (en) | Automatically evaluating summarizers | |
CN108563713B (zh) | 关键词规则生成方法及装置和电子设备 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
Wu et al. | Collaborative filtering recommendation based on conditional probability and weight adjusting | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
Kong et al. | Random walk-based beneficial collaborators recommendation exploiting dynamic research interests and academic influence | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
KR101542417B1 (ko) | 사용자 선호도 학습 방법 및 장치 | |
Rao et al. | Product recommendation system from users reviews using sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |