CN111259171A - 一种基于分词索引搜索多媒体资源的方法及服务器 - Google Patents

一种基于分词索引搜索多媒体资源的方法及服务器 Download PDF

Info

Publication number
CN111259171A
CN111259171A CN202010044235.6A CN202010044235A CN111259171A CN 111259171 A CN111259171 A CN 111259171A CN 202010044235 A CN202010044235 A CN 202010044235A CN 111259171 A CN111259171 A CN 111259171A
Authority
CN
China
Prior art keywords
information
word
processed
phrase
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010044235.6A
Other languages
English (en)
Inventor
袁丽
于松
杨梅
赵明
杨云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Jukanyun Technology Co ltd
Original Assignee
Qingdao Jukanyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Jukanyun Technology Co ltd filed Critical Qingdao Jukanyun Technology Co ltd
Priority to CN202010044235.6A priority Critical patent/CN111259171A/zh
Publication of CN111259171A publication Critical patent/CN111259171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网技术领域,尤其涉及一种基于分词索引搜索多媒体资源的方法及服务器,用以解决搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题,该方法包括:响应于在终端设备上输入的关键字,在分词索引库中进行搜索,再确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息,再获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。这样,基于建立的分词索引库进行搜索,优化了搜索效果,解决了中文词组隐含结合的问题,保证了搜索效果,提高了多媒体资源的查找效率,提升了使用体验。

Description

一种基于分词索引搜索多媒体资源的方法及服务器
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于分词索引搜索多媒体资源的方法及服务器。
背景技术
服务器基于键入的目标多媒体资源的首字母、拼音,在索引库中进行搜索,并召回满足匹配条件的多媒体资源,然后,对选择的目标多媒体资源进行播放。
现有技术下,将多媒体资源的标题等文字信息中,单个字的首字母、拼音进行拆分,生成相应的首字母分词以及拼音分词,并基于所述首字母分词以及所述拼音分词,建立相应的一条索引信息,最终建立传统数据索引库。
这样,一种情况下,服务器响应于在终端设备上输入的首字母或者拼音,在索引信息中匹配搜寻时,由于中文词组之间具有隐含结合性,会导致中文词组被拆散匹配命中,这样,导致搜索到很多不合理的结果。另一种情况下,服务器将在终端设备上输入的首字母或者拼音直接转换为最有可能的中文词语,再基于中文词语进行检索,返回该中文词语匹配的相关结果,但这样,召回的多媒体资源单一,而且无法保证适应于实际的需要,更多可能的多媒体资源无法被搜索到。
例如,服务器响应到输入“KN”后,在索引库中进行搜索,匹配召回的内容为“那片星空那片海”,而在输入KN的时候,意图搜索“空那”是没有意义的,故搜索到了不合理的结果。另一种情况下,服务器响应于输入的“KN”后,直接将“KN”转换所述服务器认为最有可能的中文词语“跨年”进行搜索,这样仅搜索到了“跨年”相关的内容,而对应“KN”还可以是柯南等内容,而关于柯南的多媒体资源无法被搜索到。
有鉴于此,需要建立新的基于分词索引搜索多媒体资源的方法,以解决现有技术中存在的搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题。
发明内容
本发明实施例提供一种基于分词索引搜索多媒体资源的方法及服务器,用以解决现有技术中存在搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题。
本发明实施例提供的具体技术方案如下:
一种基于分词索引搜索多媒体资源的方法,包括:
服务器响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合;
所述服务器确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息;
所述服务器获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
可选的,所述在分词索引库中进行搜索之前,进一步包括,建立分词索引库;具体包括:
服务器获取网络中的多媒体资源,并对于读取的每一个多媒体资源,分别执行以下操作:
所述服务器提取多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息;
所述服务器对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字;
所述服务器依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息;
所述服务器分别计算所述各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息,并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。
可选的,所述依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,包括:
所述服务器将待处理词信息按照在所述文字信息中的排列顺序进行排列;
所述服务器采用循环处理方式执行以下步骤,直至所述排列顺序中的全部待处理词信息被读取完毕时,获取处理后的各个词组信息:
所述服务器读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息,并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息;
判断所述互信息是否达到设定的互信息阈值;
若是,则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息;
否则,将所述第一待处理词作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。
可选的,所述分别计算所述各个词组信息的左边界熵和右边界熵之后,进一步包括:
服务器获取一个词组信息的左边界熵,确定所述一个词组信息的左边界熵小于所述左边界熵阈值时,删除所述一个词组信息;和/或,
所述服务器获取一个词组信息的右边界熵,确定所述一个词组信息的右边界熵小于所述右边界熵阈值时,删除所述一个词组信息。
可选的,所述基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息,包括:
服务器获取筛选后的词组信息,并将所述词组信息按照所述排列顺序进行标号;
所述服务器按照从小到大的顺序依次读取一个标号,采用循环处理的方式执行以下步骤,直至所有标号被读取完毕:
确定从所述一个标号开始,到最后一个标号为止的所有标号,并获取所述所有标号对应的所有词组信息;
将所述所有词组信息作为一个词组组合,并继续读取下一个标号;
基于获得的所有词组组合,建立对应一个多媒体资源的一条分词索引信息。
可选的,所述确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配,包括:
服务器获取所述输入的关键字,采用循环处理的方式执行以下步骤,直至所述分词索引库中的全部分词索引信息被读取完毕,获取记录的分词索引信息:
所述服务器读取一条分词索引信息,获取所述一条分词索引信息中的各个词组组合,将所述关键字与所述各个词组组合进行左对齐,并依次检测所述关键字与所述各个词组组合的匹配情况;
所述服务器确定所述各个词组组合中存在一个词组组合能够与所述关键字完成匹配时,记录所述一条分词索引信息,并继续读取下一条分词索引信息。
一种基于分词索引搜索多媒体资源的方法,包括:
终端设备基于输入的关键字,向服务器发起多媒体资源获取请求;
所述终端设备接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的。
一种基于分词索引搜索多媒体资源的服务器,包括:
搜索单元,响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合;
匹配单元,确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息;
获取单元,获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
可选的,所述在分词索引库中进行搜索之前,所述搜索单元进一步用于,建立分词索引库;具体用于:
获取网络中的多媒体资源,并对于读取的每一个多媒体资源,分别执行以下操作:
提取多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息;
对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字;
依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息;
分别计算所述各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息,并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。
可选的,所述依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合时,所述搜索单元用于:
将待处理词信息按照在所述文字信息中的排列顺序进行排列;
采用循环处理方式执行以下步骤,直至所述排列顺序中的全部待处理词信息被读取完毕时,获取处理后的各个词组信息:
读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息,并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息;
判断所述互信息是否达到设定的互信息阈值;
若是,则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息;
否则,将所述第一待处理词作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。
可选的,所述分别计算所述各个词组信息的左边界熵和右边界熵之后,所述搜索单元进一步用于:
获取一个词组信息的左边界熵,确定所述一个词组信息的左边界熵小于所述左边界熵阈值时,删除所述一个词组信息;和/或,
获取一个词组信息的右边界熵,确定所述一个词组信息的右边界熵小于所述右边界熵阈值时,删除所述一个词组信息。
可选的,所述基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息时,所述搜索单元用于:
获取筛选后的词组信息,并将所述词组信息按照所述排列顺序进行标号;
按照从小到大的顺序依次读取一个标号,采用循环处理的方式执行以下步骤,直至所有标号被读取完毕:
确定从所述一个标号开始,到最后一个标号为止的所有标号,并获取所述所有标号对应的所有词组信息;
将所述所有词组信息作为一个词组组合,并继续读取下一个标号;
基于获得的所有词组组合,建立对应一个多媒体资源的一条分词索引信息。
可选的,所述确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,所述匹配单元用于:
获取所述输入的关键字,采用循环处理的方式执行以下步骤,直至所述分词索引库中的全部分词索引信息被读取完毕,获取记录的分词索引信息:
读取一条分词索引信息,获取所述一条分词索引信息中的各个词组组合,将所述关键字与所述各个词组组合进行左对齐,并依次检测所述关键字与所述各个词组组合的匹配情况;
确定所述各个词组组合中存在一个词组组合能够与所述关键字完成匹配时,记录所述一条分词索引信息,并继续读取下一条分词索引信息。
一种基于分词索引搜索多媒体资源的终端设备,包括:
获取单元,基于所述输入的关键字,向服务器发起多媒体资源获取请求;
接收单元,接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的。
本发明有益效果如下:
本申请实施例中,首先响应于在终端设备中输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合,然后,确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息,再获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。这样,通过在建立的分词索引库中进行搜索,能够有效解决搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题,优化了搜索效果,解决了中文词组隐含结合进行匹配的问题。
附图说明
图1为本申请实施例中建立分词索引库的流程示意图;
图2为本申请实施例中基于待处理词信息得到处理后的词组信息的流程示意图;
图3为本申请实施例中对词组信息进行筛选的流程示意图;
图4为本申请实施例中基于筛选后的词组信息建立分词索引信息的流程示意图;
图5为本申请实施例中服务器在分词索引库中进行搜索的流程示意图;
图6为本申请实施例中终端设备提供的可操作界面示意图;
图7为本申请实施例中终端设备基于关键字获得多媒体资源的流程示意图;
图8为本申请实施例中服务器基于关键字的搜索结果与现有搜索结果的对比示意图;
图9为本申请实施例中服务器的逻辑结构示意图;
图10为本申请实施例中终端设备的逻辑结构示意图;
图11为本申请实施例中服务器的实体结构示意图;
图12为本申请实施例中终端设备的实体结构示意图。
具体实施方式
为了解决现有技术中存在的搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题,本申请响应于在终端设备上输入的关键字,在分词索引库中进行搜索,在确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组信息完成匹配时,记录所述至少一条分词索引信息,再获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
需要说明的是,由于网络中新的多媒体资源的产生和发布是实时的,本申请中基于实际的处理需要,服务器可以实时或者以一定的时间长度为周期,建立分词索引库,或者,在现有的分词索引库中增加新的分词索引信息。
为保证方案的完整性,下面结合附图1所示,对建立初始分词索引库的过程进行说明:
S101:获取网络中的多媒体资源。
服务器获取网络中的多媒体资源,其中,每个多媒体资源中包括有可播放的资源,以及关联的文字信息,所述文字信息包括标题信息、标签信息、简介信息、分类信息等等。
S102:读取一个多媒体资源。
服务器从获取的多媒体资源中,读取一个多媒体资源,并对所读取的一个多媒体资源,执行后续操作。
S103:提取所述一个多媒体资源关联的文字信息,所述文字信息至少包括所述媒体资源的标签信息以及简介信息。
具体的,服务器提取所述一个多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息,并基于所述文字信息进行后续的处理操作。
需要说明的是,所述文字信息不仅可以包括所述一个多媒体资源的标签信息以及简介信息,还可以包括所述一个多媒体资源的标题信息、分类信息等等,所述服务器可以基于实际的需要进行选择性的配置。
S104:对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字。
具体的,服务器采用通用词典工具,并基于正向迭代最细粒度切分算法(ik-smart)对提取的文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字,经过初始分词后得到的各个待处理词信息是单个独立的,且没有交叉重复。
需要说明的是,由于不用领域具有不同领域的专有词语,尤其是对于新发布的多媒体资源,可能会存在多个新兴的专有词语,而现有的通用词典工具在基于已记录的词语信息对多媒体资源关联的文字信息进行分词处理时,由于所述通用词典工具中已记录的词语是有限的,导致对词语的分词效果有限,无法对新兴的专有词语做出有效的分词处理,这样得到的各个待处理词信息是不准确的,故需要执行后续的步骤对得到的各个待处理词信息进行进一步处理。
例如,服务器在使用通用词典工具对“皮卡丘”进行分词处理时,得到的待处理词信息分别为“皮卡”、“丘”。
S105:依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息。
服务器获取各个待处理词信息后,通过计算相邻两个待处理词信息之间的互信息,对符合条件的相邻的待处理词信息进行组合,最终得到处理后的各个词组信息,其中,所述互信息用于衡量两个待处理词信息之间相互依赖或关联程度。具体的,服务器基于待处理词信息之间的互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息的实现过程将在图2所示的流程中进行详细说明,在此不再赘述。
S106:分别计算各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息。
具体的,智能设备基于计算得到的各个待处理词信息之间的互信息,对得到的各个待处理词信息进行组合处理后,得到各个词组信息,进一步的,分别计算所述各个词组信息的左边界阈值和右边界阈值,并基于所述左边界阈值和所述右边界阈值对所述各个词组信息进行筛选,具体的筛选过程将在图3所示的流程中进行详细说明,在此不再赘述。
S107:基于筛选出的词组信息建立对应所述一个多媒体资源的一条分词索引信息。
具体的,服务器将筛选出的词组信息按照在文字信息中的排列顺序进行排列后,对所述筛选出的词组信息进行标号,并基于所述标号,对所述词组信息进行组合,得到不同的词组组合,其中,一个词组组合中至少包括一个词组信息,再基于得到的词组组合最终建立对应一个多媒体资源的一条分词索引信息。将筛选出的词组信息进行组合最终建立分词索引信息的过程将在图4所示的流程中进行详细说明,在此不再赘述。
S108:判断是否存在未读取的多媒体资源?若是,执行S102,否则,执行S109。
具体的,服务器基于当前读取的一个多媒体资源建立一条分词索引信息后,进一步判断当前是否存在未读取的多媒体资源,若是,返回执行S102所限定的内容,并继续执行上述操作,否则,直接执行S109所限定的内容。
S109:基于当前获取的多媒体资源,完成初始分词索引库的构建。
服务器确定当前状态下没有未读取的多媒体资源时,则基于当前已经读取的多媒体资源,完成初始分词索引库的构建。在后续的运行过程中,所述服务器可以基于实际配置需要实时或者周期性的读取网络中新发布的多媒体资源,并基于所述新发布的多媒体资源生成相应的分词索引信息,添加至初始分词索引库中。
下面结合附图2,对S105中涉及到的,服务器基于待处理词信息,得到处理后的各个词组信息的过程进行说明:
S201:将待处理词信息按照在文字信息中的排列顺序进行排列。
具体的,服务器获取各个待处理词信息后,将所述各个待处理词信息按照在文字信息中的排列顺序进行排列,其中,所述各个待处理词信息是所述服务器采用通用词典工具对一个多媒体资源关联的文字信息进行分词处理后得到的。
例如,服务器对文字信息“大侦探皮卡丘”进行分词处理后,得到“大侦探”、“皮卡”、“丘”,三个待处理词信息,进一步的,所述服务器按照述文字信息“大侦探皮卡丘”中的文字排列顺序,得到各个待处理词信息的排列顺序为“大侦探”、“皮卡”“丘”。
S202:读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息。
服务器按照待处理词信息在文字信息中的排列顺序进行排列后,进一步的,所述服务器按照所述排列顺序读取相邻的两个待处理词信息,分别作为第一待处理词信息和第二待处理词信息。
例如,继续S201中的示例进行说明,服务器读取“大侦探”作为第一待处理词信息,并读取“皮卡”作为第二待处理词信息。
S203:计算所述第一待处理词信息与所述第二待处理词信息之间的互信息。
服务器得到第一待处理词信息以及第二待处理词信息后,基于以下公式计算所述第一待处理词信息与所述第二待处理词信息之间的互信息,所述互信息用于表征两个相邻的待处理词信息之间的依赖程度,所述互信息越大,表征两个相邻的待处理词信息之间的依赖程度越高,两个待处理词信息应该进行组合的可能性越大。
Figure BDA0002368803870000121
其中,X、Y表征两个相邻的待处理词信息,MI(X,Y)表征待处理词信息X和待处理词信息Y之间的互信息,P(X,Y)表征待处理词信息X和待处理词信息Y在当前的多媒体资源的文字信息中同时出现的概率,P(X)表征待处理词信息X在所述文字信息中出现的概率,P(Y)表征待处理词信息Y在所述文字信息中出现的概率。
例如,服务器对某一多媒体资源的文字信息进行分词处理后,假设得到共40个待处理词信息,其中,待处理词信息X出现的次数为5次,待处理词信息Y出现的次数为10,将XY视为一个待处理词信息时,对应存在35个待处理词信息,待处理词XY出现的次数为5次,则可确定待处理词X在文字信息中出现的概率为5/40,待处理词Y在文字信息中出现的概率为10/40,待处理信息XY在文字信息中出现的概率为5/35,进而基于上述公式实现对待处理信息X和待处理信息Y之间互信息的计算。
S204:判断所述互信息是否达到设定的互信息阈值,若是,执行S206,否则,执行S205。
服务器计算得到第一待处理词信息与第二待处理词信息之间的互信息后,判断所述互信息与设定的互信息阈值之间的关系,其中,所述互信息阈值是服务器基于实际的配置需要进行设定的,若所述互信息达到所述互信息阈值,则说明所述第一待处理词信息与所述第二待处理词信息之间相互依赖的程度很高,对应需执行S206限定的内容,反之,若所述互信息未达到所述互信息阈值,则说明所述第一待处理词信息与所述第二待处理词信息之间相互依赖的程度很低,对应需执行S205限定的内容。
S205:将所述第一待处理词信息和所述第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息。
具体的,服务器确定第一待处理词信息与第二待处理词信息之间的互信息达到设定的互信息阈值后,将所述第一待处理词信息和所述第二待处理词信息组合为一个新的待处理词信息,并将所述一个新的待处理词信息作为新的第一待处理词信息。
S206:将所述第一待处理词信息作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息。
具体的,服务器确定第一待处理词信息与第二待处理词信息之间的互信息未达到设定的互信息阈值后,将所述第一待处理词信息作为一个词组信息,并将所述第二待处理词信息设置为新的第一待处理词信息。
S207:判断待处理词信息是否全部读取完毕,若是,执行S208,否则,执行S209。
服务器基于计算得到的第一待处理词信息与第二待处理词信息之间的互信息,对当前获取的所述第一待处理词信息以及第二待处理词信息进行组合或处理后,进一步的,判断获得的各个待处理词信息是否全部读取完毕,若是,则执行S208所限定的内容,否则,执行S209所限定的内容。
S208:将所述新的第一待处理信息作为一个词组信息,并获取处理后的各个词组信息。
具体的,服务器确定待处理词信息全部被读取完毕后,则无法读取新的第二待处理词信息,即,无法基于新的第一待处理词信息计算互信息,故所述服务器直接将所述新的第一待处理词信息作为一个词组信息,同时,获取处理后得到的各个词组信息。
S209:继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息。
具体的,服务器确定待处理词信息未全部读取完毕时,则继续按照待处理词信息在文字信息中的排列顺序,读取下一个待处理词信息作为新的第二待处理词信息,进一步的,继续返回S203计算新的第一待处理词信息与所述新的第二待处理词信息之间的互信息,并继续重复执行上述的操作。
下面结合附图3所示,对S106中涉及到的服务器基于左边界熵和右边界熵对得到的各个词组信息进行筛选的过程进行说明:
S301:读取一个词组信息。
服务器从获得的各个词组信息中,读取一个词组信息,以下以词组信息W进行指代说明,所述词组信息是所述服务器将读取的一个多媒体资源关联的文字信息,采用通用词典工具进行分词处理得到各个待处理词信息后,基于计算得到的待处理词信息之间的互信息对所述各个待处理词信息进行组合后得到的。
S302:计算所述一个词组信息的左边界熵和右边界熵。
服务器对得到的一个词组信息:词组信息W,采用如下公式计算所述一个词组信息的左边界熵和右边界熵,其中,所述左边界熵用于表征所述一个词组信息左边能搭配的词组信息的丰富性,所述右边界熵用于表征所述一个词组信息右边能搭配的词组信息的丰富性,左边界熵或者右边界熵越大,表征所述一个词组信息在多媒体文件关联的文字信息中,左边或者右边能够搭配的词组信息越丰富,相应的说明所述一个词组信息的重要性越高。
Figure BDA0002368803870000151
Figure BDA0002368803870000152
Figure BDA0002368803870000153
其中,W表征某一个词组信息;EL(W)表征在文字信息的范围内,词组信息W的左边界熵;ER(W)表征在文字信息的范围内,词组信息W的右边界熵;A表征在文字信息的范围内,词组信息W左边的词组信息集合;α表征集合A中的任意一个词组信息;B表征在文字信息的范围内,在词组信息W右边的词组信息集合;b表征集合B中的任意一个词组信息;P(αW|W)表征在文字信息的范围内,在词组信息W出现的情况下,所述词组信息W左边的词是α的概率;P(Wb|W)表征在文字信的范围内词组信息W出现的情况下,所述词组信息W右边的词是b的概率;P(Wb)表征在文字信息的范围内W的右侧是b的概率;P(W)表征在文字信息的范围内词组信息W出现的概率。
假设服务器在对多媒体资源X关联的文字信息进行初始分词处理,并通过计算互信息得到组合后的各个词组信息后,W为得到的某一个词组信息,且确定在所述文字信息中,W左侧出现的词组信息包括有α1、α2、α3、α4、α5,组成了集合A;W右侧搭配的词组信息包括有b1、b2、b3,组成了集合B,其中,P(W)为在文字信息的范围内,词组信息W在得到的词组信息中的占比,P(Wb1)为在文字信息的范围内,Wb1这两个词组信息作为一个整体出现在得到的词组信息中的概率。
S303:判断所述左边界熵是否达到预设的左边界熵阈值?若是,执行S304,否则,执行S305。
服务器计算得到词组信息W的左边界熵后,将所述左边界熵与预设的左边界熵阈值进行比较,其中,所述左边界熵阈值是所述服务器基于实际的配置情况进行配置的。所述服务器确定所述左边界熵达到预设的左边界熵阈值后,执行S304进行进一步判定,否则,执行S305限定的内容。
S304:判断所述右边界熵是否达到预设的右边界熵阈值,若是,执行S306,否则,执行S305。
具体的,服务器确定词组信息W的左边界熵达到预设的左边界熵阈值后,进一步的,判断计算得到的所述词组信息W的右边界熵是否达到预设的右边界熵阈值,若是,执行S306所限定的内容,反之,执行S305所限定的内容。
需要说明的是,所述左边界熵阈值和所述右边界熵阈值是服务器基于实际需要进行配置的,在此不对所述左边界阈值和所述右边界阈值的取值进行过多限制。
S305:删除所述一个词组信息。
具体的,服务器基于计算得到的词组信息W的左边界熵和右边界熵,确定所述左边界熵未达到预设的左边界熵阈值,或者,所述右边界熵未达到预设的右边界熵阈值时,则可以确定所述词组信息W左侧或者右侧的词组搭配很少,所述词组信息W的关键性不高,故直接从处理后的各个词组信息中,删除所述词组信息W,进一步的,判断所述处理后的各个词组信息中,是否存在未读取的词组信息。
S306:记录所述一个词组信息。
服务器基于计算得到的词组信息W的左边界熵和右边界熵,确定所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值后,可确定所述词组信息W左侧和右侧的可搭配的词语丰富度很高,即词组信息W的重要性很高,故记录所述词组信息W,并将所述词组信息W保留在得到的各个词组信息中。
S307:判断所述处理后的各个词组信息是否完全读取完毕,若是,执行S308,否则,执行S301。
具体的,服务器在记录并保留词组信息W后,或者,确定删除所述词组信息W后,进一步,判断得到的各个词组信息是否全部被读取完毕,若是,则执行S308所限定的内容,输出处理结果,否则,返回S301继续执行上述流程。
S308:得到筛选出的词组信息。
服务器基于记录的词组信息,完成对各个词组信息的筛选,将重要性符合要求的词组信息的保留,对重要性不符合要求的词组信息的删除,得到筛选出的词组信息,其中,所述词组信息的重要性是基于词组信息的左边界熵和右边界熵进行限定的。
这样,能够保证筛选出的词组信息的重要性,保证了后续建立分词索引信息的词组信息的最大程度上的有效性,避免了对过多无效词组信息的匹配处理过程,提高了服务器的处理效率。
下面结合附图4,对S107中涉及到的,服务器基于筛选出的词组信息建立对应一个多媒体资源的一条分词索引信息的过程极性说明:
S401:获取筛选后的词组信息,并将所述词组信息按照所述排列顺序进行标号。
服务器基于获取的一个媒体资源关联的文字信息,对所述文字信息采用通用词典工具进行初始分词后得到各个待处理词信息,然后,通过计算待处理词信息之间的互信息,实现对待处理词信息的组合,得到各个词组信息,所述服务器再通过计算所述各个词组信息的左边界熵和右边界熵,完成对词组信息的筛选,进一步的,所述服务器把筛选后的词组信息按照在文字信息中的排列顺序进行排序后,按照从左至右,从小到大的顺序对所述词组信息进行标号。
例如,服务器获取筛选后的词组信息按照在文字信息中出现的排列顺序进行排列后,得到所述词组信息为“小猪”、“佩奇”、“过”、“大年”,进一步的,将词组信息“小猪”标号为1,词组信息“佩奇”标号为2,词组信息“过”标号为3、词组信息“大年”标号为4。
S402:按照从小到大的顺序读取一个标号。
服务器对词组信息进行标号后,进一步的,读取一个标号,其中,一个标号对应有相应的词组信息。
例如,继续S401的示例进行说明,所述服务器获取标号1,则对应得到的词组信息为“小猪”。
S403:确定从所述一个标号开始,到最后一个标号为止的所有标号,并获取所述所有标号对应的所有词组信息。
服务器基于获取的一个标号,确定从所述一个标号开始,到最后一个标号为止,所有的标号,并基于所述所有的标号,获取对应的所有的词组信息。
例如,继续S401中的示例进行说明,当前读取的标号为1,最后一个标号为4,从所述标号1开始到最后一个标号4为止,共有4个标号,分别为1、2、3、4,对应的所有词组信息为“小猪”、“佩奇”、“过”、“大年”;若当前读取的标号为2,则对应的所有标号为2、3、4,对应的所有的词组信息为“佩奇”、“过”、“大年”;若当前读取的标号为3,则对应的所有标号为3、4,词组信息为“过”、“大年”;若当前读取的标号为4,则对应的所有标号为4,词组信息为“大年”。
S404:将所述所有词组信息作为一个词组组合。
具体的,服务器获取从一个标号开始,到最后一个标号位置的所有标号对应的词组信息后,将所述词组信息作为一个词组组合。
例如,继续S403中的示例进行说明,所述服务器获取“小猪”、“佩奇”、“过”、“大年”后,将所述四个词组信息作为一个词组组合,为“小猪佩奇过大年”;所述服务器获取的三个词组信息为“佩奇”、“过”、“大年”时,产生的词组组合为“佩奇过大年”;所述服务器获取的两个词组信息是“过”、“大年”时,产生的词组组合为“过大年”;所述服务器获取的词组信息是“大年”时,产生的词组组合为“大年”。
S405:判断所有标号是否被读取完毕,若是,执行S406,否则,执行S401。
具体的,服务器基于当前读取的一个标号,生成一个词组组合后,进一步的,所述服务器判断按照从小到大的顺序依次读取标号时,所有的标号是否全部读取完毕,若是,则执行S406所限定的内容,否则,返回S402,继续按照从小到大的顺序读取标号并重复上述操作。
S406:基于获得的所有词组组合,建立对应一个多媒体资源的一条分词索引信息。
具体的,服务器获得所有的词组组合之后,确定所述所有的词组组合对应的文字信息、首字母信息和拼音信息,并基于所述所有的词组组合,以及所述所有的词组组合分别对应的文字信息、首字母信息以及拼音信息,建立一条分词索引信息。
具体的,继续延用S404的示例,服务器获取的全部词组组合的文字信息分别为“小猪佩奇过大年”、“佩奇过大年”、“过大年”以及“大年”;对应产生的首字母信息为“XZPQGDN”、“PQGDN”、“GDN”、“DN”,对应产生的拼音信息分别为“xiaozhupeiqiguodanian”、“peiqiguodanian”、“guodanian”、“danian”。
这样,服务器可以基于所述词组组合以及对应的文字信息、首字母信息、拼音信息建立分词索引信息,而且,由于词组组合是在由通用词典工具对多媒体资源关联的文字信息进行分词处理的基础上,进行组合和筛选得到的,保证了每一个词组组合的有效性和重要性,保证了建立的分词索引库的准确性,为提高搜索效率以及提升使用体验奠定了基础。
进一步的,服务器基于建立的分词索引库,响应于在终端设备上输入的关键字,所述关键字可以是文字信息、首字母信息、拼音信息,在分词索引库中查找能够完成匹配的分词索引信息。
下面结合附图5,对服务器响应于在终端设备上输入的关键字,在分词索引库中进行搜索的过程进行说明:
S501:响应于在终端设备上输入的关键字,在分词索引库中进行搜索。
服务器响应于在终端设备上输入的关键字,在分词索引库中进行搜索,其中,所述关键字可以是文字形式、首字母形式或者拼音形式的内容。进一步的,通过将所述关键字与所述分词索引库中的每一条索引信息进行匹配,实现对所述分词索引库的搜索。
例如,参阅图6所示,服务器确定在终端设备的可操作界面中输入关键字后,对所述关键字做出响应,进一步的,基于所述关键字在分词索引库中进行搜索。
S502:确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息。
具体的,服务器确定所述输入的关键字,能够与所述分词索引中至少一条分词索引信息中的一个词组组合对应的信息完成匹配时,则记录所述至少一条分词索引信息。其中,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合,所述词组组合对应的信息包括有所述词组组合的文字信息,以及所述文字信息对应的首字母信息以及拼音信息,所述分词索引库的建立过程已经在图1-4的步骤中进行详细说明,在此不再赘述。
具体的,下面对服务器将所述关键字与所述分词索引库中的一条分词索引信息进行匹配的过程进行说明:
首先获取所述一条分词索引信息中的各个词组组合对应的信息,所述信息包括有文字信息、首字母信息以及拼音信息,所述服务器基于所述关键字的类型,获取对应的信息,将所述关键字与所述各个词组组合对应的信息进行左对齐,并依次检测所述关键字与所述各个词组组合对应的信息的匹配情况。当确定所述各个词组组合中存在一个词组组合对应的信息能够与所述关键字完成匹配时,则记录所述一条分词索引信息,并继续读取下一条分词索引信息;当确定所述一条分词索引中不存在词组组合对应的信息,能够与所述关键字完成匹配时,则直接读取下一条分词索引信息。
例如,服务器响应于在终端设备上输入的关键字为“PKQ”,服务器对分词索引库中的每条分词索引信息进行搜索时,基于所述关键字的形式,依次获取每条分词索引信息中,词组组合对应的首字母信息,假设搜索发现能够与“PKQ”完成匹配的词组组合,则记录所述词组组合对应的分词索引信息。
这样,服务器可以响应于输入的不同类型的关键字,通过与词组组合对应的信息进行匹配,准确把握实际的需求,由于在终端设备上输入的关键字具有明确的搜索多媒体资源的目的性,服务器在进行匹配时,通过左对齐然后再匹配的方式,保证了输入的关键字与不同的起始词语进行匹配,避免了由于中文词组的隐含匹配性导致的匹配结果不合理的问题。
S503:获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
服务器确定输入的关键字能够与分词索引库中至少一个分词索引信息中的,词组组合对应的信息完成匹配时,获取能够与所述输入的关键字完成匹配的至少一个分词索引信息后,获取所述至少一个分词索引信息对应的至少一个多媒体资源,并将所述至少一个多媒体资源返回给给所述终端设备。
下面结合图7所示,对终端设备基于输入的关键字获取多媒体资源的过程进行说明。
S701:基于输入的关键字,向服务器发起多媒体资源获取请求。
具体的,终端设备提供了如图6所示的可操作界面,然后,响应于所述在所述可操作界面上输入的关键字,向服务器发起获取多媒体资源的请求,其中,所述关键字可以是文字形式、首字母形式以及拼音形式的内容。
S702:接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源。
具体的,终端设备接收所述服务器发返回的至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的,服务器确定词组组合确定的过程已经在上述步骤中进行详细说明,在此不再赘述,进一步的,所述终端设备呈现所述至少一个多媒体资源。
本申请中所述服务器基于所述在终端设备上输入的关键字得到的搜索结果如图8所示。
通过图8的搜索结果可知,现有的搜索结果基于在终端设备上输入的关键字进行搜索时,由于词组之间的隐含匹配性,向所述终端设备返回了很多不合理的搜索结果,而本申请的提供的技术方案中,基于建立的分词索引库,能够实现对所述输入的关键字的有效搜索以及合理推荐,避免了由于词组之间隐含的匹配性带来的搜索结果不合理的问题,而且在满足匹配条件的同时,保证了得到的搜索结果的丰富多样性。
基于同一发明构思,图9示例性的示出了本申请实施例提供的一种基于分词索引搜索多媒体资源的服务器的逻辑结构示意图,至少包括搜索单元901、匹配单元902和获取单元903,其中,
搜索单元901,响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合;
匹配单元902,确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息;
获取单元903,获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
可选的,所述在分词索引库中进行搜索之前,所述搜索单元701进一步用于,建立分词索引库;具体用于:
获取网络中的多媒体资源,并对于读取的每一个多媒体资源,分别执行以下操作:
提取多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息;
对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字;
依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息;
分别计算所述各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息,并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。
可选的,所述依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合时,所述搜索单元701用于:
将待处理词信息按照在所述文字信息中的排列顺序进行排列;
采用循环处理方式执行以下步骤,直至所述排列顺序中的全部待处理词信息被读取完毕时,获取处理后的各个词组信息:
读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息,并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息;
判断所述互信息是否达到设定的互信息阈值;
若是,则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息;
否则,将所述第一待处理词作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。
可选的,所述分别计算所述各个词组信息的左边界熵和右边界熵之后,所述搜索单元901进一步用于:
获取一个词组信息的左边界熵,确定所述一个词组信息的左边界熵小于所述左边界熵阈值时,删除所述一个词组信息;和/或,
获取一个词组信息的右边界熵,确定所述一个词组信息的右边界熵小于所述右边界熵阈值时,删除所述一个词组信息。
可选的,所述基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息时,所述搜索单元901用于:
获取筛选后的词组信息,并将所述词组信息按照所述排列顺序进行标号;
按照从小到大的顺序依次读取一个标号,采用循环处理的方式执行以下步骤,直至所有标号被读取完毕:
确定从所述一个标号开始,到最后一个标号为止的所有标号,并获取所述所有标号对应的所有词组信息;
将所述所有词组信息作为一个词组组合,并继续读取下一个标号;
基于获得的所有词组组合,建立对应一个多媒体资源的一条分词索引信息。
可选的,所述确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,所述匹配单元702用于:
获取所述输入的关键字,采用循环处理的方式执行以下步骤,直至所述分词索引库中的全部分词索引信息被读取完毕,获取记录的分词索引信息:
读取一条分词索引信息,获取所述一条分词索引信息中的各个词组组合,将所述关键字与所述各个词组组合进行左对齐,并依次检测所述关键字与所述各个词组组合的匹配情况;
确定所述各个词组组合中存在一个词组组合能够与所述关键字完成匹配时,记录所述一条分词索引信息,并继续读取下一条分词索引信息。
基于同一发明构思,图10示例性的示出了本申请实施例提供的一种基于分词索引搜索多媒体资源的服务器的逻辑结构示意图,至少包括获取单元1001、接收单元1002,其中,
获取单元1001,基于输入的关键字,向服务器发起多媒体资源获取请求;
接收单元1002,接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的。
基于同一发明构思,图11示例性的示出了本申请实施例提供的一种基于分词索引搜索多媒体资源的服务器的实体结构示意图,至少包括存储器1101和处理器1102;
存储器1101,用于存储程序指令;
处理器1102,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于分词索引搜索多媒体资源的方法。
基于同一发明构思,图12示例性的示出了本申请实施例提供的一种基于分词索引搜索多媒体资源的终端设备的实体结构示意图,至少包括存储器1001和处理器1202;
存储器1201,用于存储程序指令;
处理器1202,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于分词索引搜索多媒体资源的方法。
基于同一发明构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述信息查询的方法。
综上所述,本申请中,服务器响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合,然后,确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息,再获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。这样,通过在建立的分词索引库中进行搜索,能够有效解决搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题,优化了搜索效果,解决了中文词组隐含结合进行匹配的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种基于分词索引搜索多媒体资源的方法,其特征在于,包括:
服务器响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合;
所述服务器确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息;
所述服务器获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
2.如权利要求1所述的方法,其特征在于,所述在分词索引库中进行搜索之前,进一步包括,建立分词索引库;具体包括:
服务器获取网络中的多媒体资源,并对于读取的每一个多媒体资源,分别执行以下操作:
所述服务器提取多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息;
所述服务器对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字;
所述服务器依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息;
所述服务器分别计算所述各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息,并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。
3.如权利要求2所述的方法,其特征在于,所述依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,包括:
服务器将待处理词信息按照在所述文字信息中的排列顺序进行排列;
所述服务器采用循环处理方式执行以下步骤,直至所述排列顺序中的全部待处理词信息被读取完毕时,获取处理后的各个词组信息:
所述服务器读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息,并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息;
所述服务器判断所述互信息是否达到设定的互信息阈值;
若是,则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息;
否则,将所述第一待处理词作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。
4.如权利要求2所述的方法,其特征在于,所述分别计算所述各个词组信息的左边界熵和右边界熵之后,进一步包括:
服务器获取一个词组信息的左边界熵,确定所述一个词组信息的左边界熵小于所述左边界熵阈值时,删除所述一个词组信息;和/或,
所述服务器获取一个词组信息的右边界熵,确定所述一个词组信息的右边界熵小于所述右边界熵阈值时,删除所述一个词组信息。
5.如权利要求1-4任一项所述的方法,其特征在于,所述基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息,包括:
服务器获取筛选后的词组信息,并将所述词组信息按照所述排列顺序进行标号;
所述服务器按照从小到大的顺序依次读取一个标号,采用循环处理的方式执行以下步骤,直至所有标号被读取完毕:
所述服务器确定从所述一个标号开始,到最后一个标号为止的所有标号,并获取所述所有标号对应的所有词组信息;
所述服务器将所述所有词组信息作为一个词组组合,并继续读取下一个标号;
所述服务器基于获得的所有词组组合,建立对应一个多媒体资源的一条分词索引信息。
6.如权利要求5所述的方法,其特征在于,所述确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配,包括:
服务器获取所述输入的关键字,采用循环处理的方式执行以下步骤,直至所述分词索引库中的全部分词索引信息被读取完毕,获取记录的分词索引信息:
所述服务器读取一条分词索引信息,获取所述一条分词索引信息中的各个词组组合,将所述关键字与所述各个词组组合进行左对齐,并依次检测所述关键字与所述各个词组组合的匹配情况;
所述服务器确定所述各个词组组合中存在一个词组组合能够与所述关键字完成匹配时,记录所述一条分词索引信息,并继续读取下一条分词索引信息。
7.一种基于分词索引搜索多媒体资源的方法,其特征在于,包括:
终端设备基于输入的关键字,向服务器发起多媒体资源获取请求;
所述终端设备接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的。
8.一种基于分词索引搜索多媒体资源的服务器,其特征在于,包括:
搜索单元,响应于在终端设备上输入的关键字,在分词索引库中进行搜索,所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的,其中,一条分词索引信息对应一个多媒体资源,所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选处理得到的词组组合;
匹配单元,确定所述输入的关键字,能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时,记录所述至少一条分词索引信息;
获取单元,获取所述至少一条分词索引信息对应的至少一个多媒体资源,将所述至少一个多媒体资源返回给所述终端设备。
9.如权利要求8所述的服务器,其特征在于,所述在分词索引库中进行搜索之前,所述搜索单元进一步用于,建立分词索引库;具体用于:
获取网络中的多媒体资源,并对于读取的每一个多媒体资源,分别执行以下操作:
提取多媒体资源关联的文字信息,所述文字信息至少包括所述多媒体资源的标签信息以及简介信息;
对所述文字信息进行初始分词处理,得到各个待处理词信息,其中,一个待处理词信息中至少包括一个字;
依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合,得到处理后的各个词组信息;
分别计算所述各个词组信息的左边界熵和右边界熵,筛选出所述左边界熵达到预设的左边界熵阈值,且所述右边界熵达到预设的右边界熵阈值的词组信息,并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。
10.如权利要求9所述的服务器,其特征在于,所述依次计算相邻两个待处理词信息之间的互信息,并基于所述互信息对所述各个待处理词信息进行组合时,所述搜索单元用于:
将待处理词信息按照在所述文字信息中的排列顺序进行排列;
采用循环处理方式执行以下步骤,直至所述排列顺序中的全部待处理词信息被读取完毕时,获取处理后的各个词组信息:
读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息,并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息;
判断所述互信息是否达到设定的互信息阈值;
若是,则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息,以及将所述一个新的待处理词信息作为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息;
否则,将所述第一待处理词作为一个词组信息,以及将所述第二待处理词信息设置为新的第一待处理词信息,并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。
11.一种基于分词索引搜索多媒体资源的终端设备,其特征在于,包括:
获取单元,基于输入的关键字,向服务器发起多媒体资源获取请求;
接收单元,接收所述服务器返回的至少一个多媒体资源,并呈现所述至少一个多媒体资源,其中,所述至少一个多媒体资源对应至少一条分词索引信息,所述至少一条分词索引信息中均包含能够与所述关键字完成匹配的词组组合,所述词组组合是对多媒体资源关联的文字信息进行分词提取后,将得到的待处理词信息进行组合和筛选后得到的。
CN202010044235.6A 2020-01-15 2020-01-15 一种基于分词索引搜索多媒体资源的方法及服务器 Pending CN111259171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010044235.6A CN111259171A (zh) 2020-01-15 2020-01-15 一种基于分词索引搜索多媒体资源的方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010044235.6A CN111259171A (zh) 2020-01-15 2020-01-15 一种基于分词索引搜索多媒体资源的方法及服务器

Publications (1)

Publication Number Publication Date
CN111259171A true CN111259171A (zh) 2020-06-09

Family

ID=70950663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010044235.6A Pending CN111259171A (zh) 2020-01-15 2020-01-15 一种基于分词索引搜索多媒体资源的方法及服务器

Country Status (1)

Country Link
CN (1) CN111259171A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100313A (zh) * 2020-08-05 2020-12-18 山东鲁能软件技术有限公司 一种基于最细粒度切分的数据索引方法及系统
CN112307180A (zh) * 2020-10-22 2021-02-02 上海芯翌智能科技有限公司 一种基于标签对象的快速检索方法及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999498A (zh) * 2011-09-08 2013-03-27 中兴通讯股份有限公司 多媒体节目的检索方法及装置
CN103699640A (zh) * 2013-12-24 2014-04-02 乐视网信息技术(北京)股份有限公司 多媒体资源搜索方法、装置及系统
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN110232137A (zh) * 2019-05-10 2019-09-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999498A (zh) * 2011-09-08 2013-03-27 中兴通讯股份有限公司 多媒体节目的检索方法及装置
CN103699640A (zh) * 2013-12-24 2014-04-02 乐视网信息技术(北京)股份有限公司 多媒体资源搜索方法、装置及系统
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN110232137A (zh) * 2019-05-10 2019-09-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100313A (zh) * 2020-08-05 2020-12-18 山东鲁能软件技术有限公司 一种基于最细粒度切分的数据索引方法及系统
CN112100313B (zh) * 2020-08-05 2024-04-12 山东鲁软数字科技有限公司 一种基于最细粒度切分的数据索引方法及系统
CN112307180A (zh) * 2020-10-22 2021-02-02 上海芯翌智能科技有限公司 一种基于标签对象的快速检索方法及设备

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
US8301437B2 (en) Tokenization platform
AU2009234120B2 (en) Search results ranking using editing distance and document information
US6178417B1 (en) Method and means of matching documents based on text genre
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN111259171A (zh) 一种基于分词索引搜索多媒体资源的方法及服务器
CN108459965B (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
CN113449168A (zh) 主题网页数据抓取方法、装置、设备及存储介质
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN115562679A (zh) 一种基于Java语言的自动生成代码的方法及服务器
CN103336850A (zh) 一种数据库检索系统中确定检索词的方法及装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN113255742A (zh) 一种政策匹配度计算方法、系统、计算机设备和存储介质
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
KR101792332B1 (ko) 개체간 다중 경로 관계 정보 제공 장치 및 방법
CN111143582A (zh) 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN116756302B (zh) 一种用户信息搜索的数据处理系统
CN117131256B (zh) 一种基于aigc的媒体管理系统
CN113569016B (zh) 一种基于Bert模型的专业术语提取方法及装置
CN115422399B (zh) 视频搜索方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination