CN108416026A - 索引生成方法、内容搜索方法、装置及设备 - Google Patents

索引生成方法、内容搜索方法、装置及设备 Download PDF

Info

Publication number
CN108416026A
CN108416026A CN201810194076.0A CN201810194076A CN108416026A CN 108416026 A CN108416026 A CN 108416026A CN 201810194076 A CN201810194076 A CN 201810194076A CN 108416026 A CN108416026 A CN 108416026A
Authority
CN
China
Prior art keywords
content
key words
indexing
description information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810194076.0A
Other languages
English (en)
Other versions
CN108416026B (zh
Inventor
王聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810194076.0A priority Critical patent/CN108416026B/zh
Publication of CN108416026A publication Critical patent/CN108416026A/zh
Application granted granted Critical
Publication of CN108416026B publication Critical patent/CN108416026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种索引生成方法、内容搜索方法、装置及设备,属于搜索技术领域。所述方法包括:获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息;根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词;构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。本申请实施例通过从用于描述内容的情节的描述信息数据中提取内容的索引关键词,并据此构建内容索引,后续利用该内容索引可以实现基于内容的情节对内容进行搜索的功能,不再局限于基于名称进行搜索,增强了对内容的搜索功能。

Description

索引生成方法、内容搜索方法、装置及设备
技术领域
本申请实施例涉及搜索技术领域,特别涉及一种索引生成方法、内容搜索方法、装置及设备。
背景技术
目前,互联网能够提供纷繁多样的内容资源以供用户观看阅览,如电影、电视剧、动漫、小说等。提供上述内容资源的网站或者应用程序,通常支持内容搜索功能,用户输入搜索词之后,向用户提供与搜索词相关的内容资源。
以搜索电影为例,相关的网站或者应用程序通常支持根据电影的名称、演员名字或者导演名字来查找电影,用户输入电影的名称、演员名字、导演名字中的任意一项或者多项的组合,便可搜索得到相应的电影。
上述搜索功能较为单一,且局限性较大,如果用户不记得电影的名称、演员名字或者导演名字,则无法搜索获取到需要的内容。
发明内容
本申请实施例提供了一种索引生成方法、内容搜索方法、装置及设备,以增强对内容的搜索功能,减小其局限性。所述技术方案如下:
一方面,本申请实施例提供一种索引生成方法,所述方法包括:
获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息;
根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词;
构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。
另一方面,本申请实施例提供一种内容搜索方法,所述方法包括:
获取至少一个搜索词;
获取与所述至少一个搜索词相对应的至少一个索引关键词;
根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,其中,所述内容索引包括所述索引关键词和所述内容之间的对应关系,与所述内容对应的索引关键词从用于描述所述内容的情节的描述信息中提取;
显示搜索结果,所述搜索结果包括所述至少一项内容。
另一方面,本申请实施例提供一种索引生成装置,所述装置包括:
数据获取模块,用于获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息;
关键词提取模块,用于根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词;
索引构建模块,用于构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。
另一方面,本申请实施例提供一种内容搜索装置,所述装置包括:
搜索词获取模块,用于获取至少一个搜索词;
关键词匹配模块,用于获取与所述至少一个搜索词相对应的至少一个索引关键词;
内容搜索模块,用于根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,其中,所述内容索引包括所述索引关键词和所述内容之间的对应关系,与所述内容对应的索引关键词从用于描述所述内容的情节的描述信息中提取;
结果显示模块,用于显示搜索结果,所述搜索结果包括所述至少一项内容。
再一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述索引生成方法或者内容搜索方法。
又一方面,本申请实施例提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述索引生成方法或者内容搜索方法
本申请实施例提供的技术方案中,通过从用于描述内容的情节的描述信息数据中提取内容的索引关键词,并据此构建内容索引,后续利用该内容索引可以实现基于内容的情节对内容进行搜索的功能,不再局限于基于名称进行搜索,增强了对内容的搜索功能。
附图说明
图1是本申请一个实施例提供的索引生成方法的流程图;
图2是本申请另一个实施例提供的索引生成方法的流程图;
图3是本申请一个实施例提供的内容搜索方法的流程图;
图4A是与图3实施例对应的流程示意图;
图4B是图4A对应的产品界面图;
图5是本申请一个实施例提供的索引生成装置的框图;
图6是本申请一个实施例提供的内容搜索装置的框图;
图7是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的技术方案中,提供了一种基于内容的情节对内容进行搜索的功能。用户输入搜索词,相关网站或者应用程序向用户提供情节与上述搜索词相关的内容。例如,以搜索电影为例,用户输入搜索词“虚拟”、“代码”,则向用户提供情节与“虚拟”、“代码”相关的电影。
另外,本申请实施例提及的“内容”,其可以是电影、电视剧、动漫等视频资源,也可以是小说、剧本、图书等文本资源,或者其它具有情节的资源,本申请实施例对此不作限定。
请参考图1,其示出了本申请一个实施例提供的索引生成方法的流程图。该方法可应用于计算机设备中,所述计算机设备可以是PC(Personal Computer,个人计算机)或者服务器,或者其它具备较强数据处理能力的设备。该方法可以包括如下几个步骤:
步骤101,获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述该内容的情节的至少一条描述信息。
对于任一内容来说,该内容的描述信息是指对该内容的情节的描述。可选地,内容的描述信息是由普通用户和/或专家提供的,对该内容的情节的评论、评价、观后感或者读后感。以电影为例,电影的描述信息可以是普通用户和/或专业的影评人员,从不同角度对该电影的情节的评论。
可选地,通过网络爬虫技术从相关网站爬取内容的描述信息数据。以电影为例,可以通过网络爬虫技术从影评类的网站中爬取不同用户的评论。示例性地,上述网络爬虫可以是Scrapy,能够抓取网站并从页面中提取结构化的数据,例如评论。
步骤102,根据各个内容的描述信息数据,提取各个内容的索引关键词。
在获取各个内容的描述信息数据之后,从各个内容的描述信息数据中,分别提取各个内容的索引关键词。索引关键词从内容的情节角度,体现了该内容的情节的关键特征。例如,电影《攻壳机动队》的索引关键词包括计算机、虚拟、科幻、策反、记忆、科技等索引关键词,电影《异次元骇客》的索引关键词包括计算机、意识、虚拟、信念、创造、人类等索引关键词。
步骤103,构建内容索引,内容索引包括索引关键词和内容之间的对应关系。
在提取各个内容的索引关键词之后,构建内容索引。在内容索引中,以索引关键词为索引信息,分别记录了与每一个索引关键词相对应的内容。仍然以电影为例,相关的内容索引可以如下表-1所示:
表-1
如上述表-1所示,索引关键词包括“计算机”、“虚拟”、“科幻”等关键词,与“计算机”对应的电影包括《攻壳机动队》、《黑客帝国3》、《黑客帝国》和《异次元骇客》等,表明上述这几部电影的情节都与计算机相关。当然,上述表-1所示的内容索引仅是示例性和解释性的,并不对本申请技术方案构成限定。
综上所述,本申请实施例提供的方案中,通过从用于描述内容的情节的描述信息数据中提取内容的索引关键词,并据此构建内容索引,后续利用该内容索引可以实现基于内容的情节对内容进行搜索的功能,不再局限于基于名称进行搜索,增强了对内容的搜索功能。
请参考图2,其示出了本申请另一个实施例提供的索引生成方法的流程图。该方法可应用于上文介绍的计算机设备中。该方法可以包括如下几个步骤:
步骤201,获取至少一个内容的描述信息数据。
每个内容的描述信息数据中包括用于描述该内容的情节的至少一条描述信息。可选地,计算机设备除了获取内容的描述信息数据之外,还获取每条描述信息对应的评价参数。上述描述信息数据和评价参数均可通过网络爬虫技术获取。对于任意一条描述信息来说,该描述信息对应的评价参数是指对该描述信息的质量进行评价的相关参数,例如评价参数包括以下至少一项:评分、认为该描述信息有用的数目、认为该描述信息无用的数目。
可选地,计算机设备获取各个内容的描述信息数据之后,根据评价参数对各个内容的描述信息数据进行筛选,筛选出评价参数符合预设条件的至少一条描述信息。在一个示例中,预设条件为评分大于预设分值,且认为该描述信息有用的数目大于认为该描述信息无用的数目。通过上述方式,筛选出质量较高的描述信息做后续处理,有助于提高最终提取的索引关键词的准确性。
步骤202,对各个内容的描述信息数据执行分词处理,生成候选词。
在本申请实施例中,对分词处理所采用的算法不作限定。例如,对于中文来说,可以采用开源的jieba分词软件进行分词处理。
可选地,本步骤包括如下几个子步骤:
1、对各个内容的描述信息数据执行分词处理,得到至少两个词语;
2、从至少两个词语中选取目标词性的词语,作为候选词。
由于需要提取的候选词是能够用于形容、概括内容的情节的描述性词语,因此在分词处理之后,可以根据词语的词性筛选出一些词语作为候选词。例如,上述目标词性包括以下至少一项:名词、形容词、动词。而将非目标词性的词语筛除,不作为候选词。
示例性地,从描述信息“《攻壳机动队》的名字大家都在纠结是ke还是qiao。“功壳”的意思是指“攻击性装甲外骨壳”,所以应该读ke。但在中国版海报上又有“灵魂出壳”四字,又似乎应该读qiao。其实呢,这也看自己的理解了,如果将其理解为是指公安九课的义体人,那么读ke无可厚非,若理解为深层次的关乎影片中关于灵魂的探究,那么读qiao也无可厚非。所以小编觉得,两种读法都对,只是看个人理解罢了……”中提取的候选词包括:攻壳机动队、名字、都在、纠结、功壳、意思、是指、攻击性、外骨壳、在中国、海报、又有、灵魂、这也、自己的、理解了、将其、理解、是指、公安、九课、义体、无可厚非、理解、关乎、影片、灵魂、探究、无可厚非、小编、读法、都对、是看、理解,等。
步骤203,对候选词执行聚类处理,得到至少一个类,每个类中包含至少一个候选词。
分词处理后得到的各个候选词之间是没有关联的,在本申请实施例中,根据各个候选词之间的语义相似度,对候选词执行聚类处理,得到至少一个类。属于同一类的候选词具有相同或者相似的语义。
可选地,本步骤包括如下几个子步骤:
1、提取每个候选词的词向量;
2、根据每两个候选词的词向量,计算每两个候选词之间的相似度;
3、根据每两个候选词之间的相似度,对候选词执行聚类处理,得到至少一个类。
在本申请实施例中,可以通过计算两个候选词的词向量之间的相似度,来得到两个候选词之间的相似度。也就是说,将判断两个候选词的语义是否相似的问题,转换成计算词向量的相似度。可选地,采用开源的word2vec工具对候选词进行词向量训练,训练结果是每个候选词都表示成一个n维的向量,n为正整数。示例性地,训练参数包括:size=400,window=5,min_count=5。其中,size表示词向量的维数,上述示例中取值为400;window表示训练窗口的大小,上述示例中取值为5,表示向前向后5个词;min_count表示最低词频,上述示例中取值为5,表示词频小于5的候选词舍弃。
在提取各个候选词的词向量之后,需要通过聚类的方法,将词向量相似的候选词聚集成一个类,这样做的原因是,不同用户撰写的描述信息,使用的词汇是有差异的,但他们表达的意思可能是相同或者相近的,因此需要将语义相同或者相近的不同候选词进行聚类。
在本申请实施例中,对聚类所采用的算法不作限定,如K-Means算法。示例性地,K-Means算法的聚类参数包括:n_clusters=200,max_iter=300,n_init=10。其中,n_clusters表示聚类得到的簇(也即类)的数目,上述示例中取值为200;max_iter表示最大迭代次数,上述示例中取值为300;n_init表示质心种子的选取次数,上述示例中取值为10。
步骤204,获取每个类的主题词。
在对候选词进行聚类之后,获取每个类的主题词,主题词用于代表该类中包含的候选词。在一个示例中,采用人工标注的方式为每个类标注主题词。在另一个示例中,从每个类所包含的候选词中选择一个候选词作为该类的主题词,例如可以选择类中的第一个候选词或者随机选择一个候选词作为主题词。
示例性地,每个类的主题词以及类中包含的候选词如下表-2所示:
表-2
当然,上述表-2所示的各个类的主题词及候选词仅是示例性和解释性的,并不对本申请技术方案构成限定。
步骤205,根据主题词相对于各个内容的描述信息数据的重要程度,从主题词中选取各个内容的索引关键词。
在提取得到若干主题词之后,分别计算每个主题词相对于每个内容的描述信息数据的重要程度,根据上述重要程度确定各个内容的索引关键词。
可选地,上述重要程度采用TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆向文件频率)算法计算得到,本步骤包括如下几个子步骤:
1、将每个内容的描述信息数据合成为一个文档;
2、计算每个主题词在每个文档中的词频,以及每个主题词相对于每个文档的逆向文件频率;
每个主题词在每个文档中的词频TF根据该主题词在文档中的出现次数,以及文档中包含的所有主题词的总数量计算得到。可选地,主题词w在文档a中的词频TF=主题词w在文档a中的出现次数÷文档a中包含的所有主题词的总数量。
每个主题词相对于每个文档的逆向文件频率IDF根据文档总数,以及出现该主题词的文档个数计算得到。可选地,主题词w相对于文档a的逆向文件频率IDF=log(文档总数/(出现主题词w的文档个数+1)),其中,分母加1是为了避免分母为0的情况发生。
3、根据每个主题词在每个文档中的词频以及每个主题词相对于每个文档的逆向文件频率,计算每个主题词相对于每个文档的重要程度;
上述重要程度可以采用TF-IDF值表示。可选地,主题词w相对于文档a的TF-IDF值=题词w在文档a中的词频TF×主题词w相对于文档a的逆向文件频率IDF。
4、对于每个内容,根据每个主题词相对于该内容对应的文档的重要程度,确定该内容的索引关键词。
在计算得到每个主题词相对于每个文档的TF-IDF值之后,根据该TF-IDF值确定内容的索引关键词。在一个示例中,对于每个内容,选择相对于该内容对应的文档的TF-IDF值大于预设阈值的主题词,作为该内容的索引关键词。在另一个示例中,对于每个内容,选择相对于该内容对应的文档的TF-IDF值最大的预设数量的主题词,作为该内容的索引关键词。在又一个示例中,对于每个内容,从相对于该内容对应的文档的TF-IDF值大于预设阈值的主题词中,选择TF-IDF值最大的预设数量的主题词,作为该内容的索引关键词。
步骤206,获取内容、内容的索引关键词、索引关键词的权重值之间的对应关系。
索引关键词的权重值根据索引关键词相对于内容对应的文档的重要程度确定。可选地,索引关键词的权重值采用TF-IDF值表示。示例性地,以电影为例,上述对应关系如下表-3所示:
表-3
当然,上述表-3所示的各个电影的索引关键词及权重值仅是示例性和解释性的,并不对本申请技术方案构成限定。
步骤207,根据上述对应关系构建倒排索引,生成内容索引。
为了在用户搜索时能够快速地找到相应的内容,需要预先创建好以索引关键词为索引信息的内容索引。在本申请实施例中,通过内容-索引关键词的关系,创建索引关键词-内容的倒排索引。内容索引的key为索引关键词,value为内容,如内容的名称。示例性地,以电影为例,将上述表-3所述的对应关系构建倒排索引,生成的内容索引如下表-4所示:
表-4
当然,上述表-4所示的各个索引关键词对应的电影及权重值仅是示例性和解释性的,并不对本申请技术方案构成限定。
综上所述,本申请实施例提供的方案中,通过从用于描述内容的情节的描述信息数据中提取内容的索引关键词,并据此构建内容索引,后续利用该内容索引可以实现基于内容的情节对内容进行搜索的功能,不再局限于基于名称进行搜索,增强了对内容的搜索功能。
请参考图3,其示出了本申请一个实施例提供的内容搜索方法的流程图。该方法可应用于终端设备中,所述终端设备可以是手机、平板电脑、电子书阅读器、多媒体播放设备、PC等电子设备。该方法可以包括如下几个步骤:
步骤301,获取至少一个搜索词。
搜索词可以由用户输入,且搜索词的数量可以是一个,也可以是多个。也即,本申请实施例提供的搜索功能支持搜索获取与一个或多个搜索词相关的内容。
步骤302,获取与至少一个搜索词相对应的至少一个索引关键词。
搜索输入允许用户输入任意词语作为搜索词,因此用户输入的搜索词可能无法和内容索引中的索引关键词完全匹配,为了确保后续检索的可行性,根据上述图2实施例中的聚类结果,将用户输入的搜索词转换为索引关键词。例如,将“代码”转换为“计算机”。
步骤303,根据内容索引,搜索获取与至少一个索引关键词相对应的至少一项内容,其中,内容索引包括索引关键词和内容之间的对应关系,与内容对应的索引关键词从用于描述内容的情节的描述信息中提取。
如果上述步骤302中得到一个索引关键词,则直接查询内容索引,获取与该索引关键词对应的内容。
如果上述步骤302中得到两个或者两个以上索引关键词,则对于每个索引关键词,分别查询一次内容索引得到与该索引关键词对应的内容,并将搜索得到的内容取交集。
步骤304,显示搜索结果,该搜索结果包括上述至少一项内容。
可选地,根据索引关键词对应的权重值,计算索引关键词与内容之间的相关度,按相关度由大到小的顺序显示各个内容。
结合参考图4A,假设用户输入的搜索词包括“虚拟”和“代码”,将其转换为对应的索引关键词为“虚拟”和“计算机”,通过“虚拟”检索得到的电影包括《攻壳机动队》、《黑客帝国3》、《黑客帝国》和《异次元骇客》,且“虚拟”对应于上述4部电影的权重值分别为0.257、0.212、0.198和0.201;另外,通过“计算机”检索得到的电影包括《攻壳机动队》、《黑客帝国3》、《黑客帝国》和《异次元骇客》,且“计算机”对应于上述4部电影的权重值分别为0.375、0.317、0.247和0.258,最终求和计算得到索引关键词“虚拟”和“计算机”与上述4部电影之间的相关度分别为0.632、0.529、0.445和0.459。按照相关度由大到小的顺序,得到的搜索结果依次为:《攻壳机动队》、《黑客帝国3》、《异次元骇客》和《黑客帝国》。相关的产品界面可以如图4B所示,用户在搜索栏中输入搜索词“虚拟”和“代码”,客户端为用户提供上述搜索结果。
综上所述,本申请实施例提供的方案中,通过从用于描述内容的情节的描述信息数据中提取内容的索引关键词,并据此构建内容索引,后续利用该内容索引可以实现基于内容的情节对内容进行搜索的功能,不再局限于基于名称进行搜索,增强了对内容的搜索功能。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图5,其示出了本申请一个实施例提供的索引生成装置的框图。该装置具有实现上述索引生成方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:数据获取模块510、关键词提取模块520和索引构建模块530。
数据获取模块510,用于获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息。
关键词提取模块520,用于根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词。
索引构建模块530,用于构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。
可选地,关键词提取模块520,包括:分词处理单元、候选词聚类单元、主题词获取单元和关键词提取单元。
分词处理单元,用于对各个所述内容的描述信息数据执行分词处理,生成候选词。
候选词聚类单元,用于对所述候选词执行聚类处理,得到至少一个类,每个类中包含至少一个候选词。
主题词获取单元,用于获取每个类的主题词。
关键词提取单元,用于根据所述主题词相对于各个所述内容的描述信息数据的重要程度,从所述主题词中选取各个所述内容的索引关键词。
可选地,关键词提取单元,用于:
将每个内容的描述信息数据合成为一个文档;
计算每个主题词在每个文档中的词频,以及每个主题词相对于每个文档的逆向文件频率;
根据每个主题词在每个文档中的词频以及每个主题词相对于每个文档的逆向文件频率,计算每个主题词相对于每个文档的重要程度;
对于每个内容,根据每个主题词相对于所述内容对应的文档的重要程度,确定所述内容的索引关键词。
可选地,索引构建模块530,用于:
获取所述内容、所述内容的索引关键词、所述索引关键词的权重值之间的对应关系,所述索引关键词的权重值根据所述索引关键词相对于所述内容对应的文档的重要程度确定;
根据所述对应关系构建倒排索引,生成所述内容索引。
可选地,分词处理单元,用于:
对各个所述内容的描述信息数据执行分词处理,得到至少两个词语;
从所述至少两个词语中选取目标词性的词语,作为所述候选词。
可选地,候选词聚类单元,用于:
提取每个候选词的词向量;
根据每两个候选词的词向量,计算每两个候选词之间的相似度;
根据每两个候选词之间的相似度,对所述候选词执行聚类处理,得到所述至少一个类。
可选地,每个内容的描述信息数据中包括评价参数符合预设条件的所述至少一条描述信息。
请参考图6,其示出了本申请一个实施例提供的内容搜索装置的框图。该装置具有实现上述内容搜索方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:搜索词获取模块610、关键词匹配模块620、内容搜索模块630和结果显示模块640。
搜索词获取模块610,用于获取至少一个搜索词。
关键词匹配模块620,用于获取与所述至少一个搜索词相对应的至少一个索引关键词。
内容搜索模块630,用于根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,其中,所述内容索引包括所述索引关键词和所述内容之间的对应关系,与所述内容对应的索引关键词从用于描述所述内容的情节的描述信息中提取。
结果显示模块640,用于显示搜索结果,所述搜索结果包括所述至少一项内容。
可选地,内容搜索模块630,用于:
当所述索引关键词为一个时,从所述内容索引中搜索获取与所述索引关键词对应的至少一项内容;
或者,
当所述索引关键词为至少两个时,从所述内容索引中搜索获取与每个索引关键词对应的至少一项内容,并将搜索获取的各项所述内容取交集。
可选地,结果显示模块640,用于:
根据各个所述索引关键词相对于各个所述内容的权重值,计算所述至少一个索引关键词与每个内容之间的相关度;
按所述相关度由大到小的顺序显示所述至少一项内容。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图7,其示出了本申请一个实施例提供的计算机设备700的结构框图。该计算机设备700可以是PC、服务器、手机、平板电脑、多媒体播放设备、可穿戴设备等。
通常,计算机设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的方法。
在一些实施例中,计算机设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置计算机设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在计算机设备700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在计算机设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在计算机设备的前面板,后置摄像头设置在计算机设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位计算机设备700的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在计算机设备700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时,可以检测用户对计算机设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置计算机设备700的正面、背面或侧面。当计算机设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例中实施例中,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述索引生成方法或者内容搜索方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述索引生成方法或者内容搜索方法。
可选地,上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述索引生成方法或者内容搜索方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种索引生成方法,其特征在于,所述方法包括:
获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息;
根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词;
构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词,包括:
对各个所述内容的描述信息数据执行分词处理,生成候选词;
对所述候选词执行聚类处理,得到至少一个类,每个类中包含至少一个候选词;
获取每个类的主题词;
根据所述主题词相对于各个所述内容的描述信息数据的重要程度,从所述主题词中选取各个所述内容的索引关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述主题词相对于各个所述内容的描述信息的重要程度,从所述主题词中选取各个所述内容的索引关键词,包括:
将每个内容的描述信息数据合成为一个文档;
计算每个主题词在每个文档中的词频,以及每个主题词相对于每个文档的逆向文件频率;
根据每个主题词在每个文档中的词频以及每个主题词相对于每个文档的逆向文件频率,计算每个主题词相对于每个文档的重要程度;
对于每个内容,根据每个主题词相对于所述内容对应的文档的重要程度,确定所述内容的索引关键词。
4.根据权利要求3所述的方法,其特征在于,所述构建内容索引,包括:
获取所述内容、所述内容的索引关键词、所述索引关键词的权重值之间的对应关系,所述索引关键词的权重值根据所述索引关键词相对于所述内容对应的文档的重要程度确定;
根据所述对应关系构建倒排索引,生成所述内容索引。
5.根据权利要求2所述的方法,其特征在于,所述对各个所述内容的描述信息数据执行分词处理,生成候选词,包括:
对各个所述内容的描述信息数据执行分词处理,得到至少两个词语;
从所述至少两个词语中选取目标词性的词语,作为所述候选词。
6.根据权利要求2所述的方法,其特征在于,所述对所述候选词执行聚类处理,得到至少一个类,包括:
提取每个候选词的词向量;
根据每两个候选词的词向量,计算每两个候选词之间的相似度;
根据每两个候选词之间的相似度,对所述候选词执行聚类处理,得到所述至少一个类。
7.根据权利要求1至6任一项所述的方法,其特征在于,每个内容的描述信息数据中包括评价参数符合预设条件的所述至少一条描述信息。
8.一种内容搜索方法,其特征在于,所述方法包括:
获取至少一个搜索词;
获取与所述至少一个搜索词相对应的至少一个索引关键词;
根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,其中,所述内容索引包括所述索引关键词和所述内容之间的对应关系,与所述内容对应的索引关键词从用于描述所述内容的情节的描述信息中提取;
显示搜索结果,所述搜索结果包括所述至少一项内容。
9.根据权利要求8所述的方法,其特征在于,所述根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,包括:
当所述索引关键词为一个时,从所述内容索引中搜索获取与所述索引关键词对应的至少一项内容;
或者,
当所述索引关键词为至少两个时,从所述内容索引中搜索获取与每个索引关键词对应的至少一项内容,并将搜索获取的各项所述内容取交集。
10.根据权利要求8或9所述的方法,其特征在于,所述显示搜索结果,包括:
根据各个所述索引关键词相对于各个所述内容的权重值,计算所述至少一个索引关键词与每个内容之间的相关度;
按所述相关度由大到小的顺序显示所述至少一项内容。
11.一种索引生成装置,其特征在于,所述装置包括:
数据获取模块,用于获取至少一个内容的描述信息数据,每个内容的描述信息数据中包括用于描述所述内容的情节的至少一条描述信息;
关键词提取模块,用于根据各个所述内容的描述信息数据,提取各个所述内容的索引关键词;
索引构建模块,用于构建内容索引,所述内容索引包括所述索引关键词和所述内容之间的对应关系。
12.一种内容搜索装置,其特征在于,所述装置包括:
搜索词获取模块,用于获取至少一个搜索词;
关键词匹配模块,用于获取与所述至少一个搜索词相对应的至少一个索引关键词;
内容搜索模块,用于根据内容索引,搜索获取与所述至少一个索引关键词相对应的至少一项内容,其中,所述内容索引包括所述索引关键词和所述内容之间的对应关系,与所述内容对应的索引关键词从用于描述所述内容的情节的描述信息中提取;
结果显示模块,用于显示搜索结果,所述搜索结果包括所述至少一项内容。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的索引生成方法,或者实现如权利要求8至10任一所述的内容搜索方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的索引生成方法,或者实现如权利要求8至10任一所述的内容搜索方法。
CN201810194076.0A 2018-03-09 2018-03-09 索引生成方法、内容搜索方法、装置及设备 Active CN108416026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810194076.0A CN108416026B (zh) 2018-03-09 2018-03-09 索引生成方法、内容搜索方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810194076.0A CN108416026B (zh) 2018-03-09 2018-03-09 索引生成方法、内容搜索方法、装置及设备

Publications (2)

Publication Number Publication Date
CN108416026A true CN108416026A (zh) 2018-08-17
CN108416026B CN108416026B (zh) 2023-04-18

Family

ID=63130845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810194076.0A Active CN108416026B (zh) 2018-03-09 2018-03-09 索引生成方法、内容搜索方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108416026B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN110855740A (zh) * 2019-09-27 2020-02-28 深圳市火乐科技发展有限公司 信息推送方法及相关设备
CN117648478A (zh) * 2024-01-29 2024-03-05 河北省沧州中西医结合医院 基于骨科中西医知识索引分类的检索方法、系统及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
US20040267774A1 (en) * 2003-06-30 2004-12-30 Ibm Corporation Multi-modal fusion in content-based retrieval
CN101458695A (zh) * 2008-12-18 2009-06-17 西交利物浦大学 基于关键词和内容特征的混合图片索引构建和查询方法及其应用
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN105808607A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种文档索引的生成方法和装置
KR101643979B1 (ko) * 2015-07-01 2016-07-29 순천향대학교 산학협력단 비디오 컨텐츠 증강 방법
CN106708929A (zh) * 2016-11-18 2017-05-24 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN106844472A (zh) * 2016-12-22 2017-06-13 北京搜狗科技发展有限公司 一种搜索方法和装置、一种用于搜索的装置
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107590179A (zh) * 2017-08-01 2018-01-16 佛山市深研信息技术有限公司 一种大数据分类处理方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
US20040267774A1 (en) * 2003-06-30 2004-12-30 Ibm Corporation Multi-modal fusion in content-based retrieval
CN101458695A (zh) * 2008-12-18 2009-06-17 西交利物浦大学 基于关键词和内容特征的混合图片索引构建和查询方法及其应用
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN105808607A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种文档索引的生成方法和装置
KR101643979B1 (ko) * 2015-07-01 2016-07-29 순천향대학교 산학협력단 비디오 컨텐츠 증강 방법
CN106708929A (zh) * 2016-11-18 2017-05-24 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN106844472A (zh) * 2016-12-22 2017-06-13 北京搜狗科技发展有限公司 一种搜索方法和装置、一种用于搜索的装置
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107590179A (zh) * 2017-08-01 2018-01-16 佛山市深研信息技术有限公司 一种大数据分类处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S.W. SMOLIAR等: "Content based video indexing and retrieval" *
吴玲生: "足球视频索引结构与检索算法研究" *
陈炯等: "一种基于词聚类的中文文本主题抽取方法", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN110855740A (zh) * 2019-09-27 2020-02-28 深圳市火乐科技发展有限公司 信息推送方法及相关设备
CN117648478A (zh) * 2024-01-29 2024-03-05 河北省沧州中西医结合医院 基于骨科中西医知识索引分类的检索方法、系统及介质
CN117648478B (zh) * 2024-01-29 2024-04-02 河北省沧州中西医结合医院 基于骨科中西医知识索引分类的检索方法、系统及介质

Also Published As

Publication number Publication date
CN108416026B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111652678B (zh) 物品信息显示方法、装置、终端、服务器及可读存储介质
CN109189879B (zh) 电子书籍显示方法及装置
CN109918669B (zh) 实体确定方法、装置及存储介质
CN110121118A (zh) 视频片段定位方法、装置、计算机设备及存储介质
CN110750992B (zh) 命名实体识别方法、装置、电子设备及介质
CN110110145A (zh) 描述文本生成方法及装置
CN108829881A (zh) 视频标题生成方法及装置
CN110807325B (zh) 谓词识别方法、装置及存储介质
CN108304506A (zh) 检索方法、装置及设备
CN108270794B (zh) 内容发布方法、装置及可读介质
CN112632445A (zh) 网页播放方法、装置、设备及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN108416026A (zh) 索引生成方法、内容搜索方法、装置及设备
CN110414232A (zh) 恶意程序预警方法、装置、计算机设备及存储介质
CN113392180A (zh) 文本处理方法、装置、设备及存储介质
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN111062248A (zh) 图像检测的方法、装置、电子设备及介质
CN111428522B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN110675473B (zh) 生成gif动态图的方法、装置、电子设备及介质
CN110457571A (zh) 获取兴趣点信息的方法、装置、设备及存储介质
CN107656794A (zh) 界面显示方法和装置
CN112818080A (zh) 搜索方法、装置、设备及存储介质
CN116580707A (zh) 基于语音生成动作视频的方法和装置
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant