CN104679742A - 信息处理方法及装置 - Google Patents
信息处理方法及装置 Download PDFInfo
- Publication number
- CN104679742A CN104679742A CN201310611314.0A CN201310611314A CN104679742A CN 104679742 A CN104679742 A CN 104679742A CN 201310611314 A CN201310611314 A CN 201310611314A CN 104679742 A CN104679742 A CN 104679742A
- Authority
- CN
- China
- Prior art keywords
- keyword
- document
- value
- unit
- grammatical relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种信息处理方法和装置,该方法包括:按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索请求的相关度高的文档。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种信息处理方法及装置。
背景技术
在现有的信息处理技术中,利用关键词检索相关专利文档时,一般都是关键词完全匹配或者模糊匹配。但是,这样获得的文档与关键词的相关性不高。
发明内容
鉴于现有技术的上述情形,本申请的实施方式提供了一种信息处理方法及装置,在利用关键词搜索相关文档时,考虑关键词与文档的句子中的最大名词单元和/或语法关系的匹配度,从而提高搜索到的文档与关键词的相关性。
本申请实施方式提供一种信息处理方法,包括:按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
本申请的另一实施方式中提供一种信息处理装置,包括:最大名词单元匹配部件,被配置用于按照预定语法单位将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配;和/或语法关系匹配部件,被配置用于按照预定语法单位将所述搜索请求中的关键词针对所述预定的数据库中的文档进行语法关系匹配;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;以及相关度确定部件,被配置用于根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;以及文档确定部件,被配置用于根 据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索请求的相关度高的文档。
附图说明
参照下面结合附图对本申请实施方式的说明,会更加容易地理解本申请的以上和其它目的、特点和优点。附图以示例而非限制性的方式来说明本申请。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出本申请实施方式提供的信息处理方法的流程图。
图2是示出对预定的数据库的一个具体处理示例的图形。
图3是示出图1所示的最大名词单元匹配和语法关系匹配的实施过程的一个具体示例的图形。
图4是示出本申请实施方式提供的最大名词单元匹配的实施过程的一个具体示例的图形。
图5是示出本申请实施方式提供的语法关系匹配的实施过程的一个具体示例的图形。
图6示出本申请实施方式提供的信息处理装置的结构框图。
图7示出本申请实施方式提供的信息处理装置的另一结构框图。
图8示出本申请实施方式提供的另一种信息处理装置的结构框图。
图9示出可用于实现本申请实施方式提供的方法和装置的计算设备的示例性结构框图。
具体实施方式
现在参考附图来更加详细地描述本申请的实施方式。示例实施方式的提供是为了使本申请更加详尽,并且向本领域技术人员充分地传达保护范围。阐述了众多的特定细节如特定部件、装置的例子,以提供对本申请的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,示例实施 方式可以用许多不同的形式来实施而不一定使用这些特定的细节,因此它们都不应当被解释为限制本申请的范围。另外,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。在某些示例实施方式中,为了清楚的目的,没有在附图和说明中详细地描述众所周知的过程、结构和技术。
下面参考附图结合具体实施方式介绍本申请提供的检索文档的方法。出于方便说明的目的,下述实施方式中以使用关键词搜索汉语文档为例进行说明,应当注意,本发明提供的方法还可以应用于其他语言,其处理可以参照下述以汉语为例执行的处理,本文不再赘述。
图1示出本申请实施方式提供的信息处理方法的流程图。
在步骤S101中,按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度。
其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系。该预定的数据库可以为预先确定的与需要搜索的文档对应的特定领域的数据库。例如,当期望搜索得到专利文档时,该预定的数据库可以为特定的专利数据库。
在步骤S102中,根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
例如,可以预先设置相关度的阈值,并设置只有相关度高于该阈值的文档才可以作为搜索结果,这样,可以增加搜索结果的相关性。
在下面的描述中,图2示出对预定的数据库中的文档预先进行处理得到最大名词单元和语法关系的一个具体示例流程。图3示出上述步骤S101的具体实现流程的一个示例。
数据库中预先存储文档的最大名词单元和语法关系,以便能够执行上述最大名词单元匹配和/或语法关系匹配。该最大名词单元是指不被任何其它名词短语所包含的名词短语,从语法树上来看就是从ROOT(根)向下遇到的第一个NP(节点)标识下的所有叶子节点的集合,该最大名词单元的含义可以参考《哈尔滨工业大学》2007年硕士论文中作者王月颖的题目为“中文最长名词短语识别研究”的文章中的“中文最长名词短语”。如上所述,该语法关系为以最大名词单元为中心的语法关系。
在步骤S201中,提供用于获取句子模板和语法关系的语料库。
该语料库中的语料可以为与本实施方式所实际应用的领域等相关的语料。而且,本发明提供的信息处理方法中,还可以使用句子以外的其他语法单位,例如可以用短语作为语法单位,相应地,使用短语模板代替句子模板。
在步骤S202中,对语料库中的语料进行语法分析,获得句子模板和句子中以最大名词单元为中心的语法关系。
进行语法分析的方式可以包括标注每个词汇的词性、最大名词单元(Maximum Noun Phrase,MNP),并标注最大名词单元与动词、介词的关系。词性包括名词、动词、形容词、介词等。
基于标注后的句子抽取得到包含词性、最大名词单元和介词词形的模板,介词词形即介词“在”、“和”等介词本身。
例如,对于语料“牙齿敏感通常是由饮料和/或唾液成分导致的渗透压力造成流体通过牙质管朝向牙齿中的神经末梢移动加快引起的”,进行标注处理后得到“[牙齿敏感](MNP1)通常(ADV)是(V1)[由饮料和/或唾液成分导致的渗透压力](MNP2)造成(V2_使动词)[流体](MNP3)通过(V3)[牙质管朝向牙齿中的神经末梢](MNP4)移动(V4)加快(V5)引起(V6)的”。
根据上述标注处理后的结果抽取得到模板“MNP1+ADV+V1+MNP2+V2_使动词+MNP3+V3+MNP4+V4+V5+V6+的”,并得到最大名词单元与动词和介词的语法关系如下:V1(subj_MNP1obj_MNP2);V2_使动词(subj_MNP2obj_MNP3);V3(subj_MNP3obj_MNP4);V4(subj_MNP3);V5(subj_MNP3);V6(subj_NP3),其中,subj表示主语,obj表示宾语,例如“V1(subj_MNP1obj_MNP2)”说明MNP1是动词V1的主语,MNP2是动词V1的宾语。
在步骤S203中,利用得到的句子模板和其中以最大名词单元为中心的语法关系建立模板库,在模板库中存储句子模板以及句子模板中以最大名词单元为中心的语法关系。
在步骤S204中,对预定的数据库中的文档的句子标注词性、最大名词单元,在模板库中匹配得到与各句子对应的模板。
本步骤中通过标注处理使文档的句子成为以词性、最大名词单元、介词的词形为单位的结构,并且基于该结构在模板库中匹配得到与该结构对应的模板。
在步骤S205中,根据模板库中存储的与查找到的模板对应的语法关系得到预定的数据库中的文档的以最大名词单元为中心的语法关系。
图3是示出上述步骤S101的实施过程的一个具体示例的图形。该示例中根据最大名词单元匹配结果和语法关系匹配结果确定文档与搜索请求的相关度。
在步骤S301中,判断关键词是否是单个词,如果是,执行步骤S302,否则,执行步骤S306。
在步骤S302中,将文档中的关键词与其所在的最大名词单元进行匹配。
在步骤S303中,如果最大名词单元与关键词完全匹配,则设置关键词的第一得分为第一值;如果最大名词单元与关键词部分匹配,则当关键词为最大名词单元的词尾时,设置关键词的第一得分为第二值,否则,设置关键词的第一得分为第三值。
其中,第一值、第二值、第三值为大于零的实数。第一值可以大于第二值,第二值可以大于第三值。例如,第一值、第二值、第三值分别为1、0.9和0.8。当关键词与最大名词单元完全匹配时,通常该关键词与该最大名词单元的匹配度非常高,因此,上述第一值大于第二值和第三值。当关键词与最大名词单元部分匹配时,由于通常情况下最大名词单元的中心词位于词尾,因而如果关键词为最大名词单元的词尾,则该关键词为最大名词单元的中心词的概率较大,相应地,该关键词与最大名词单元的匹配度也较高,所以,上述第二值大于第三值。
在步骤S304中,如果最大名词单元与动词有语法关系,则确定最大名词单元包含的关键词的第二得分为第四值;如果最大名词单元与介词有语法关系,则确定最大名词单元包含的关键词的第二得分为第五值。
其中,第四值和第五值为大于零的实数,并且第四值大于第五值。例如,第四值和第五值分别取1和0.8。此处设置第四值大于第五值是基于下述考虑:通常动词可以作为语句或短语的主干,而介词通常不作为语句或短语的主干,因此,如果最大名词单元与动词有语法关系,则可以认为该最大名词单元包含的关键词与该语句或短语的匹配度更高。
在步骤S305中,将文档中搜索到的各关键词的第一得分与第二得分相乘,得到各关键词的相关度得分,并根据各关键词的相关度得分得到该文档与搜索请求的相关度。
例如,可以累计各关键词的相关度得分,即将各关键词的相关度得分的和作为文档与搜索请求的相关度。还可以考虑各关键词的最高相关度得分,例如将文档中的关键词的最高相关度得分作为文档与搜索请求的相关度。或者,可以将各关键词的相关度得分的和与关键词的最高相关度得分加权求和,并将求和结果作为文档与搜索请求的相关度。
在步骤S306中,判断关键词中是否含有预设的动词列表中的动词,如果有,设置该动词的第一得分为第六值,并将文档中的其余关键词与其所在的最大名词单元进行匹配。第六值为不为零的实数,例如任一正数,可以取常数。
本步骤中,预设的动词列表例如为数据库所属领域内的常用动词列表,该动词列表中包括的动词可以根据实际需要灵活设置。
在步骤S307中,与上述步骤S303相同,如果最大名词单元与关键词完全匹配,则设置关键词的得分为第一值;如果最大名词单元与关键词部分匹配,则当关键词为最大名词单元的词尾时,设置关键词的得分为第二值,否则,设置关键词的得分为第三值。
与上述步骤S303相同,第一值、第二值、第三值为大于零的实数,并且第一值大于第二值和第三值。例如,第一值、第二值、第三值分别为1、0.9和0.8。
在步骤S308中,判断关键词是否是逻辑和关系的多个词,如果是,执行步骤S309;否则,执行步骤S314。此处,该逻辑和关系可以按照关键词之间的连接词进行判断,例如,如果两个词之间使用“和”连接则为逻辑和关系,如果使用“或”连接则为逻辑或关系。
在步骤S309中,将多个词两两组合,每一组合中包括两个关键词。
例如,可以将每一个词分别与其它每一个词组合得到多个组合,或者可以预设组合规则,使得每一个词只能与其它一个词组合,即每一个词只能存在于一个组合中,或者每一个词可以与其它多个词组合,即每一个词可以与其它多个词分别构成多个组合,本发明对此不做限制。
在步骤S310中,针对每一组合,计算文档中每一个第一关键词与每一个第二关键词之间的相关性得分。
此处,为了描述方便,将每一组合中的两个关键词分别称为第一关键词和第二关键词,不同组合中的第一关键词或第二关键词可以不同。
如果两个关键词构成直接语法关系,则其相关性得分为第七值;否则,如果两个关键词在同一语法结构(例如主谓结构、动宾结构、介宾结构等)中,则其相关性得分为第八值;否则,如果两个关键词在同一语法单位中,则其相关性得分为第九值;否则,如果上述两个关键词在同一文档中,则其相关性得分为第十值;否则,将上述两个关键词的得分乘以0;其中,第七值、第八值、第九值和第十值为大于零的实数并且依次减小。例如,第七值、第八值、第九值和第十值分别取1、0.9、0.8和0.7。
其中,两个关键词之间包括动名和名名关系,即一个动词和一个名词、或者两个名词。如果是动名关系,若动词和名词所在最大名词单元构成主谓或动宾关系,则该两个词构成直接语法关系;如果是名名关系,若该两个词和同一动词构成直接语法关系,则该两个词构成直接语法关系。
在步骤S311中,按照相关性得分从大到小的顺序得到第一关键词和第二关键词构成的词对,其中,同一个关键词只能存在于一个词对中;将词对的相关性得分作为词对中的各关键词的第三得分;如果在文档中搜索到的关键词没有与其它词构成词对,则该关键词的第三得分为零。
在步骤S312中,针对多个关键词中的每一个词,根据其对应的所有第三得分得到其第四得分,即该关键词的语法关系匹配结果。
本步骤中,例如,可以将任一关键词在所有组合中的第三得分进行求和或求平均等处理得到任一关键词的第四得分。
在步骤S313中,将各关键词的第一得分与第四得分求积得到各个关键词的相关度得分。
在步骤S314中,根据各个关键词的相关度得分得到该文档与搜索请求的相关度。
例如,将各个关键词的相关度得分求和,并将求和结果作为文档与搜索请求的相关度。
在步骤S315中,当多个关键词之间具有逻辑或的关系时,按照每个关键词执行步骤S302-305的处理。
需要说明,在实际应用中,不一定要基于文档的所有内容计算文档与关键词的相关度,还可以根据实际情况考虑针对文档的一部分例如摘要部分计算文档与关键词的相关度,因为摘要部分一般是整个文档的内容的概要说明。此时,上述步骤S204中执行处理时只对文档的一部分的句子进行标注处理,相应地,进行相关度判断时也只针对文档的该一部分句子。
另外,本发明实施方式提供的上述图3中的各步骤之间的顺序可以调整,而不用于限定必须的处理顺序。例如,可以对搜索请求中的关键词直接执行最大名词单元匹配而不区分是单个还是多个关键词,在执行语法关系匹配时才根据关键词的个数分别处理。
图4示出上述步骤S101的实施过程的另一示例的图形。该示例中根据最大名词单元匹配结果确定文档与搜索请求的相关度。
步骤S401-S402与上述步骤S302-S303相同,在此不再赘述。
在步骤S403中,根据各个关键词的第一得分得到文档与搜索请求的相关度。例如,将各个关键词的第一得分求和,并将求和结果作为文档与搜索请求的相关度。
图5示出上述步骤S101的实施过程的又一示例的图形。该示例中根据语法关系匹配结果确定文档与搜索请求的相关度。
在步骤S501中,判断搜索请求中的关键词是否是单个词,如果是,执行步骤S502,否则,执行步骤S503。
在步骤S502中,根据以文档中的关键词所在的最大名词单元为中心的语法关系确定文档中的关键词的第二得分,将该第二得分作为该关键词的语法关系匹配结果,然后执行步骤S507。
例如,如果文档中的关键词所在的最大名词单元与动词有语法关系,则确定文档中的该关键词的第二得分为第四值;如果文档中的关键词所在的最大名词单元与介词有语法关系,则确定文档中的该关键词的第二得分为第五值。其中,第四值和第五值为大于零的实数,并且第四值大于第五值。
在步骤S503中,将搜索请求中的多个关键词两两组合。
在步骤S504中,针对每一组合,计算文档中每一个第一关键词与每一个第二关键词之间的相关性得分。
本步骤可以参考上述步骤S310,此处不再赘述。
在步骤S505中,按照相关性得分从大到小的顺序得到第一关键词和第二关键词构成的词对,将词对的相关性得分作为词对中的各关键词的第三得分,如果在文档中搜索到的关键词没有与其它词构成词对,则该关键词的第三得分为零。
在步骤S506中,针对多个关键词中的每一个词,根据其对应的所 有第三得分得到其第四得分,将该第四得分作为该关键词的语法关系匹配结果。
在步骤S507中,根据各个关键词的语法关系匹配结果得到该文档与搜索请求的相关度。例如,将各个关键词的第二得分或第四得分求和,并将求和结果作为文档与搜索请求的相关度。
需要说明,本发明上述实施方式所提供的方法中,还可以使用现有技术中常用的关键词搜索方法在数据库中搜索得到包括搜索请求中的关键词的文档,然后对这些文档应用上述最大名词单元匹配和/或语法关系匹配。通过上述最大名词单元匹配和/或语法关系匹配,对使用现有的关键词搜索方法得到的文档进行再次筛选,从中得到与搜索请求中的关键词匹配度更高的文档。或者,可以直接对数据库中的文档进行最大名词单元匹配和/或语法关系匹配,此时,对于数据库中的任一文档,需要搜索该文档中所包括的搜索请求中的关键词,然后对文档中的各关键词执行上述最大名词单元匹配和/或语法关系匹配。通过这种方式,对数据库中的文档直接执行最大名词单元匹配和/或语法关系匹配,可以简化利用关键词对数据库中的文档进行搜索的处理,尤其在数据库中的文档数量不多或文档与关键词的匹配度较高的情况下,有利于提高搜索效率。
需要说明,尽管图4和图5分别提供了根据最大名词单元匹配结果和语法关系匹配结果确定文档与搜索请求的相关度的示例,但是,图4和图5示出的过程并不相互排斥,而可以相互结合,且这种结合的具体方式包括但不限于图3提供的示例。
下面给出本发明实施方式提供的信息处理方法的具体示例。
假如希望得到与关键词“密钥管理”和“密钥更新”的相关度高的文档,以“密钥管理”和“密钥更新”为关键词对数据库中的文档进行搜索,初步得到文档1-5,进一步采用图2所示流程计算文档1-5与关键词“密钥管理”和“密钥更新”的相关度,进而得到满足阈值条件的文档。
文档1.分布式动态密钥管理方法及装置
“根据权利要求1所述的方法,其特征在于,该方法还包括:当到达密钥的更新周期时,每个子密钥管理员分别根据所述子密钥更新份额对其子密钥进行更新,同时……”
其中,“”部分为搜索得到的文档内容,“斜体”表示在文档中搜索到的关键词,“_”部分为在文档中搜索到的关键词所在的最大名词单元。
为了区分在文档中搜索到的多个关键词,将搜索到的这些关键词称为第N个关键词,N为该关键词出现的顺序。
文档1中,第1个“密钥管理”和第1个“密钥更新”都没有与最大名词单元完全匹配,且不是最大名词单元的词尾,因此文档1中出现的第1个“密钥管理”和第1个“密钥更新”的第一得分都是0.8。
进一步地,从语法关系上看,“密钥管理”和“密钥更新”都是名词,且第1个“密钥管理”和第1个“密钥更新”没有和同一动词发生语法关系,因此,第1个“密钥管理”和第1个“密钥更新”不构成直接语法关系,且该词对没有在同一语法结构中,因此,相关性得分为0.8。由于文档1中只有1个“密钥管理”和1个“密钥更新”,因此,第1个“密钥管理”和第1个“密钥更新”构成词对,且词对的相关性得分为0.8。
然后,得到第1个“密钥管理”和第1个“密钥更新”的得分均为:0.8*0.8=0.64。
最后,得到文档1与关键词“密钥管理”和“密钥更新”的相关度为各关键词得分的和,即0.64+0.64=1.28。
文档2.分布式动态密钥管理方法及装置
“当有子密钥管理员需要更新子密钥时,所述子密钥管理员选定其子密钥...所述可信中心在接收到所述子密钥管理员发来的子密钥更新验证信息后,...”
与文档1相同,“”部分为搜索得到的文档内容,“斜体”表示在文档中搜索到的关键词,“_”部分为在文档中搜索到的关键词所在的最大名词单元。
首先,获取各关键词的第一得分。
由于第1个密钥管理、第2个密钥管理和第3个密钥管理和第1个密钥更新都没有与最大名词单元完全匹配,且都不是最大名词单元的词尾,因此第1个密钥管理、第2个密钥管理和第3个密钥管理和第1个密钥更新的第一得分都是0.8。
然后,计算第1个密钥管理、第2个密钥管理和第3个密钥管理和第1个密钥更新的相关性得分。
如上所示内容中,第1个密钥管理、第2个密钥管理和第3个密钥管理都不与第1个密钥更新构成直接语法关系。第1个密钥管理、第2 个密钥管理与第1个密钥更新位于同一句子,因此,第1个密钥管理、第2个密钥管理与第1个密钥更新的相关性得分均为0.8。第3个密钥管理与第1个密钥更新位于同一语法结构,因此,第3个密钥管理与第1个密钥更新的相关性得分为0.9。
然后,以相关性得分最高的第3个密钥管理与第1个密钥更新为词对,且该词对的相关性得分为0.9。由于同一个关键词只能存在于一个词对中,因此,第1个密钥更新只能与第3个密钥管理构成词对。由于文档中没有其他“密钥更新”,因此,第1个密钥管理、第2个密钥管理无法构成词对,或者说,第1个密钥管理、第2个密钥管理与关键词“密钥更新”构成的词对的相关性得分为0,即该关键词“密钥更新”不存在于文档中。
最后,将各关键词的第一得分分别乘以其对应的词对的相关性得分得到文档2与关键词的相关度:0.8*0+0.8*0+0.8*0.9+0.8*0.9=1.44。
文档3,一种多媒体广播系统中密钥更新的方法及装置
“该方法包括:终端根据...目前,对于密钥管理中的密钥更新,釆用的是第三代伙伴组织...”
首先得到第1个“密钥管理”和第一个“密钥更新”的第一得分分别为0.8和0.9(最大名词单位词尾)。
然后,由于只有1个密钥管理和1个密钥更新,因此该密钥管理和密钥更新构成词对,其相关性得分为0.9(同一结构中)。
最后,得到文档3与关键词的相关度为:0.8*0.9+0.9*0.9=1.63。
文档4,一种组播密钥的安全更新方法、系统及设备
“组播更新密钥管理模块,用于获取组播业务组对应的组播更新密钥MEK;组播密钥更新响应模块,用于接收光线路终端OLT发送的组播密钥更新通告...”
首先得到第1个密钥管理、第1个密钥更新和第2个密钥更新的第一得分均为0.8。
然后,计算第1个密钥管理分别与第1个密钥更新和第2个密钥更新的相关性得分,分别为0.7,由于同一关键词只能存在于一个词对中,因此,第1个密钥管理只能与第1个密钥更新或第2个密钥更新组成词对,假设本实例中按照关键词出现先后顺序将第1个密钥管理与第1个密钥更 新构成词对,该词对的相关性得分为0.7。
最后,得到文档4与关键词的相关度为:0.8*0.7+0.8*0.7+0.8*0=1.12。
文档5.一种无线城域网组播密钥管理方法及系统
“由此,可解决无线城域网组播密钥管理基础密钥安全不高和组播密钥更新的效率低下的问题。Claims(OCR text may contain errors).权利要求.1、一种无线城域网组...”
首先得到第1个密钥管理和第1个密钥更新的第一得分均为0.8。
然后,第1个密钥管理和第1个密钥更新构成的词对的相关性得分为0.9(同一语法结构中);
最后,得到文档5与关键词的相关度为:0.8*0.9+0.8*0.9=1.44。
由此,得到文档1-5与关键词的相关度分别为:1.28、1.44、1.63、1.12和1.44。
假定相关度阈值设置为1.3,则最终得到满足阈值条件的文档2、文档3和文档5为搜索结果。
本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索关键词的相关度高的文档。
基于与上述方法实施方式相同的技术构思,本申请的另一实施方式提供一种信息处理装置,图6示出该装置的结构框图。
如图6所示,该装置包括最大名词单元匹配部件10,被配置用于按照预定语法单位将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配;和/或语法关系匹配部件20,被配置用于按照预定语法单位将所述搜索请求中的关键词针对所述预定的数据库中的文档进行语法关系匹配;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;该装置还包括:相关度确定部件30,被配置用于根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;以及文档确定部件40,被配置用于根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。其中,该装置中可以包括最大名词单元匹配部件10和语法关系匹配部件20中的一个或两 个。相应地,相关度确定部件30根据最大名词单元匹配和语法关系匹配的匹配结果中的一个或两个确定文档与搜索请求的相关度。当装置中只包括最大名词单元匹配部件10时,该装置的操作可以参考上述图4;当装置中只包括语法关系匹配部件20时,该装置的操作可以参考上述图5。
所述最大名词单元匹配部件10可以被配置用于:将在所述文档中的各个关键词分别与所述各个关键词自身所在的最大名词单元进行匹配,根据匹配结果得到各个关键词的第一得分。进一步地,所述最大名词单元匹配部件10还用于:如果最大名词单元与所述关键词完全匹配,则设置所述关键词的第一得分为第一值;如果最大名词单元与所述关键词部分匹配,则当所述关键词为所述最大名词单元的词尾时,设置所述关键词的第一得分为第二值,否则,设置所述关键词的第一得分为第三值;其中,第一值、第二值和第三值均为大于零的实数,且第一值大于第二值,第二值大于第三值。
如图7所示,所述语法关系匹配部件20可以包括第一匹配部件21、第二匹配部件22和第二匹配部件23。
第一匹配部件21,可以被配置用于当所述搜索请求中包含一个关键词时,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到所述各个关键词的第二得分作为语法关系匹配结果。而且,如果所述关键词所在的最大名词单元与动词有语法关系,则第一匹配部件21设置所述第二得分为第四值;如果所述关键词所在的最大名词单元与介词有语法关系,则第一匹配模块21设置所述第二得分为第五值;其中,第四值和第五值均为大于零的实数,且第四值大于第五值。
第二匹配部件22,可以被配置用于当所述搜求请求中包含具有逻辑和关系的多个关键词时,将所述多个关键词两两组合;针对任一组合,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系计算在所述文档中的所述任一组合中的第一关键词与第二关键词的相关性,并根据所述相关性得到各个关键词的第三得分;并且,针对在所述文档中的任一关键词,根据所述任一关键词在所有组合中的第三得分得到所述任一关键词的第四得分作为所述任一关键词的语法关系匹配结果。
第三匹配部件23,被配置用于当所述搜求请求中包含具有逻辑或关系的多个关键词时,针对具有逻辑或关系的每一关键词分别执行下述处 理:根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个所述每一关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到的各个所述每一关键词的第二得分作为语法关系匹配结果。与第一匹配附件21的处理类似,针对具有逻辑或关系的多个关键词中的每一关键词进行处理时,如果文档中的每一关键词所在的最大名词单元与动词有语法关系,则第一匹配部件23设置该每一关键词的第二得分为第四值;如果文档中的每一关键词所在的最大名词单元与介词有语法关系,则第一匹配模块21设置该每一关键词的第二得分为第五值。
其中,所述第二匹配部件22计算在所述文档中搜索到的所述任一组合中的第一关键词与第二关键词的相关性可以包括:如果所述第一关键词与所述第二关键词构成直接语法关系,则所述第一关键词与所述第二关键词的相关性得分为第七值;否则,如果所述第一关键词与所述第二关键词在同一语法结构中,则所述第一关键词与所述第二关键词的相关性得分为第八值;否则,如果所述第一关键词与所述第二关键词在同一语法单位中,则所述第一关键词与所述第二关键词的相关性得分为第九值;否则,如果所述第一关键词与所述第二关键词在同一文档中,则所述第一关键词与所述第二关键词的相关性得分为第十值;否则,所述第一关键词与所述第二关键词的相关性得分为0;其中,第七值、第八值、第九值和第十值为大于零的实数并且依次减小。
另外,当所述第一关键词与所述第二关键词为动词和名词时,若所述动词和名词构成主谓或动宾关系,则第二匹配部件22判断所述第一关键词与所述第二关键词构成直接语法关系;当所述第一关键词与所述第二关键词均为名词时,如果所述第一关键词与所述第二关键词和同一动词构成直接语法关系,则第二匹配部件22判断所述第一关键词与所述第二关键词构成直接语法关系。
其中,所述第二匹配部件22根据所述相关性得到各个关键词的第三得分可以包括:按照相关性得分从大到小的顺序选取词对,其中,在所述文档中搜索到的每一个第一关键词或第二关键词只能存在于选取的一个词对中;将所述词对的相关性得分作为所述词对中的第一关键词和第二关键词的第三得分;如果在所述文档中搜索到的第一关键词或第二关键词不在词对中,则该第一关键词或第二关键词的第三得分为零。
本实施方式提供的装置可被配置为执行上述图1以及图3至图5所 示的方法实施方式描述的各种处理的装置,具体处理过程可以参考上述方法实施方式的描述,此处不再赘述。
基于与上述方法实施方式相同的技术构思,本申请的另一实施方式提供一种信息处理装置,图8示出该装置的结构框图。
如图8所示,该装置包括模板处理部件81,被配置用于对预定语料库中的语法单位进行语法分析,标注每个语法单位中的词汇的词性、最大名词单元,并标注最大名词单元的语法关系;根据所述语料库中标注处理后的语法单位得到语法单位模板、以及语法单位模板对应的以最大名词单元为中心的语法关系;以及数据库处理部件82,被配置用于标注预定的数据库中的文档的各个语法单位中的词汇的词性、最大名词单元;将标注处理后的所述预定的数据库中的文档的语法单位匹配对应的语法单位模板,并将匹配的语法单位模板对应的以最大名词单元为中心的语法关系作为所述预定的数据库中的文档的语法单位中以最大名词单元为中心的语法关系。
本实施方式提供的装置可以被配置为执行上述图2所示的流程,其具体处理可以参考上述图2的介绍。基于该装置得到的数据库中不仅存储有文档数据,而且存储了文档中的最大名词单元以及语法关系数据,因此增加了文档数据的相关信息,有利于从数据库中得到更能满足用户需要的数据。例如,对该数据库中的第一文档和第二文档进行例如文档相关性判断的处理中,可以根据第一文档和第二文档中的最大名词单元是否相同以及语法关系是否相同等进行判断,从而可以有助于提高判断结果的准确性。
本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中预定语法单位(例如短语、句子等)的最大名词单元的匹配度结果和/或与文档中预定语法单位的语法关系的匹配结果选择文档,从而可以搜索得到与搜索关键词的相关度高的文档。
本申请实施方式还提供一种用以实施本申请的装置和方法的计算设备。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机900)安装构 成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM903中,也根据需要存储当CPU901执行各种处理等等时所需的数据。CPU901、ROM902和RAM903经由总线904彼此连接。输入/输出接口905也连接到总线904。
下述部件连接到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本申请还提出存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本申请任一实施方式的方法或方法中的部分处理。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
通过上述的描述,可见本发明的实施方式提供了以下的技术方案,但本发明不限于此。
附记1.一种信息处理方法,包括:
按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度,其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;以及
根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
附记2.如附记1所述的方法,其中,将所述搜索请求中的关键词针对所述文档进行最大名词单元匹配包括:
将在所述文档中的各个关键词分别与所述各个关键词自身所在的最大名词单元进行匹配,根据匹配结果得到各个关键词的第一得分。
附记3.如附记2所述的方法,其中,根据匹配结果得到所述关键词的第一得分包括:
如果最大名词单元与所述关键词完全匹配,则设置所述关键词的第一得分为第一值;
如果最大名词单元与所述关键词部分匹配,则当所述关键词为所述最大名词单元的词尾时,设置所述关键词的第一得分为第二值,否则,设置所述关键词的第一得分为第三值;
其中,第一值、第二值和第三值均为大于零的实数,且第一值大于第二值,第二值大于第三值。
附记4.如附记2所述的方法,其中,当所述关键词中包含动词时,设置所述动词的第一得分为第六值。
附记5.如附记1-4中任一项所述的方法,其中,将所述搜索请求中的关键词针对所述文档进行语法关系匹配包括:
当所述搜索请求中包含一个关键词时,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到所述各个关键词的第二得分作为语法关系匹配结果;
当所述搜求请求中包含具有逻辑和关系的多个关键词时,将所述多个关键词两两组合;针对任一组合,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系计算在所述文档中的所述任一组合中的第一关键词与第二关键词的相关性,并根据所述相关性得到各个关键词的第三得分;并且,针对在所述文档中的任一关键词,根据所述任一关键词在所有组合中的第三得分得到所述任一关键词的第四得分作为所述任一关键词的语法关系匹配结果;
当所述搜求请求中包含具有逻辑或关系的多个关键词时,针对具有逻辑或关系的每一关键词分别执行下述处理:根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个所述每一关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到的各个所述每一关键词的第二得分作为语法关系匹配结果。
附记6.如附记5所述的方法,其中,根据所述语法关系得到各个关键词的第二得分包括:
如果所述关键词所在的最大名词单元与动词有语法关系,则所述第二得分为第四值;
如果所述关键词所在的最大名词单元与介词有语法关系,则所述第二得分为第五值;
其中,第四值和第五值均为大于零的实数,且第四值大于第五值。
附记7.如附记5所述的方法,其中,计算在所述文档中搜索到的所述任一组合中的第一关键词与第二关键词的相关性包括:
如果所述第一关键词与所述第二关键词构成直接语法关系,则所述第一关键词与所述第二管键词的相关性得分为第七值;否则
如果所述第一关键词与所述第二关键词在同一语法结构中,则所述第一关键词与所述第二关键词的相关性得分为第八值;否则
如果所述第一关键词与所述第二关键词在同一语法单位中,则所述第一关键词与所述第二关键词的相关性得分为第九值;否则
如果所述第一关键词与所述第二关键词在同一文档中,则所述第一关键词与所述第二关键词的相关性得分为第十值;否则
所述第一关键词与所述第二关键词的相关性得分为0;
其中,第七值、第八值、第九值和第十值为大于零的实数并且依次减小。
附记8.如附记7所述的方法,其中,当所述第一关键词与所述第二关键词为动词和名词时,若所述动词和名词构成主谓或动宾关系,则所述第一关键词与所述第二关键词构成直接语法关系;当所述第一关键词与所述第二关键词均为名词时,如果所述第一关键词与所述第二关键词和同一动词构成直接语法关系,则所述第一关键词与所述第二关键词构成直接语法关系。
附记9.如附记7所述的方法,其中,根据所述相关性得到各个关键词的第三得分包括:
按照相关性得分从大到小的顺序选取词对,其中,在所述文档中的每 一个第一关键词或第二关键词只能存在于选取的一个词对中;
将所述选取的词对中的第一关键词和第二关键词的相关性得分作为所述词对中的第一关键词和第二关键词的第三得分;以及
如果在所述文档中的第一关键词或第二关键词没有与其它关键词构成词对,则该第一关键词或第二关键词的第三得分为零。
附记10.如附记1-4中任一项所述的方法,其中,所述语法单位为以最大名词单元为中心的句子或短语。
附记11.如附记1-4中任一项所述的方法,其中,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度包括:
将所述文档中搜索到的所有关键词的最大名词单元匹配和/或语法关系匹配的匹配结果加权求和得到所述文档与所述搜索请求的相关度。
附记12.如附记1-4中任一项所述的方法,其中,通过下述方式获得所述以最大名词单元为中心的语法关系:
对预定语料库按预定的语法单位进行语法分析,标注每个语法单位中的词汇的词性、最大名词单元,并标注以最大名词单元为中心的语法关系;
根据所述预定语料库中标注处理后的语法单位得到语法单位模板、以及语法单位模板对应的以最大名词单元为中心的语法关系;
标注所述预定的数据库中的文档的各个预定语法单位中的词汇的词性、最大名词单元;
将标注处理后的所述预定的数据库中的文档的语法单位与对应的语法单位模板进行匹配,并将与匹配到的语法单位模板对应的以最大名词单元为中心的语法关系,作为所述预定的数据库中的文档的预定语法单位所具有的以最大名词单元为中心的语法关系。
附记13.一种信息处理装置,包括:
最大名词单元匹配部件,被配置用于按照预定语法单位将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配;和/或语法关系匹配部件,被配置用于按照预定语法单位将所述搜索请求中的关键词针对所述预定的数据库中的文档进行语法关系匹配;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;
相关度确定部件,被配置用于根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;以及
文档确定部件,被配置用于根据各文档与所述搜索请求的相关度获取 作为搜索结果的文档。
附记14.如附记13所述的装置,所述最大名词单元匹配部件被配置用于:
将在所述文档中的各个关键词分别与所述各个关键词自身所在的最大名词单元进行匹配,根据匹配结果得到各个关键词的第一得分。
附记15.如附记14所述的装置,其中,所述最大名词单元匹配部件被配置用于:
如果最大名词单元与所述关键词完全匹配,则设置所述关键词的第一得分为第一值;
如果最大名词单元与所述关键词部分匹配,则当所述关键词为所述最大名词单元的词尾时,设置所述关键词的第一得分为第二值,否则,设置所述关键词的第一得分为第三值;
其中,第一值、第二值和第三值均为大于零的实数,且第一值大于第二值,第二值大于第三值。
附记16.如附记13所述的装置,所述语法关系匹配部件包括:
第一匹配部件,被配置用于当所述搜索请求中包含一个关键词时,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到所述各个关键词的第二得分作为语法关系匹配结果;
第二匹配部件,被配置用于当所述搜求请求中包含具有逻辑和关系的多个关键词时,将所述多个关键词两两组合;针对任一组合,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系计算在所述文档中的所述任一组合中的第一关键词与第二关键词的相关性,并根据所述相关性得到各个关键词的第三得分;并且,针对在所述文档中的任一关键词,根据所述任一关键词在所有组合中的第三得分得到所述任一关键词的第四得分作为所述任一关键词的语法关系匹配结果;
第三匹配部件,被配置用于当所述搜求请求中包含具有逻辑或关系的多个关键词时,针对具有逻辑或关系的每一关键词分别执行下述处理:根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个所述每一关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到的各个所述每一关键词的第二得分作为语法关系匹配结果。
附记17.如附记16所述的装置,其中,所述第一匹配部件,被配置 用于:
如果所述关键词所在的最大名词单元与动词有语法关系,则设置所述第二得分为第四值;
如果所述关键词所在的最大名词单元与介词有语法关系,则设置所述第二得分为第五值;
其中,第四值和第五值均为大于零的实数,且第四值大于第五值。
附记18.如附记16所述的装置,其中,所述第二匹配部件计算在所述文档中搜索到的所述任一组合中的第一关键词与第二关键词的相关性包括:
如果所述第一关键词与所述第二关键词构成直接语法关系,则所述第一关键词与所述第二管键词的相关性得分为第七值;否则
如果所述第一关键词与所述第二关键词在同一语法结构中,则所述第一关键词与所述第二关键词的相关性得分为第八值;否则
如果所述第一关键词与所述第二关键词在同一语法单位中,则所述第一关键词与所述第二关键词的相关性得分为第九值;否则
如果所述第一关键词与所述第二关键词在同一文档中,则所述第一关键词与所述第二关键词的相关性得分为第十值;否则
所述第一关键词与所述第二关键词的相关性得分为0;
其中,第七值、第八值、第九值和第十值为大于零的实数并且依次减小。
附记19.如附记16所述的装置,其中,所述第二匹配部件根据所述相关性得到各个关键词的第三得分包括:
按照相关性得分从大到小的顺序选取词对,其中,在所述文档中的每一个第一关键词或第二关键词只能存在于选取的一个词对中;
将所述选取的词对中的第一关键词和第二关键词的相关性得分作为所述词对中的第一关键词和第二关键词的第三得分;
如果在所述文档中的第一关键词或第二关键词没有与其它关键词构成词对,则该第一关键词或第二关键词的第三得分为零。
附记20.一种信息处理装置,应用于附记1-12任一项所述的方法,包括:
模块处理部件,被配置用于对预定语料库中的语法单位进行语法分析,标注每个语法单位中的词汇的词性、最大名词单元,并标注最大名词单元的语法关系;根据所述预定语料库中标注处理后的语法单位得到语法单位模板、以及语法单位模板对应的以最大名词单元为中心的语法关系;
数据库处理部件,被配置用于标注所述预定的数据库中的文档的各个语法单位中的词汇的词性、最大名词单元;将标注处理后的所述预定的数据库中的文档的语法单位匹配对应的语法单位模板,并将匹配的语法单位模板对应的以最大名词单元为中心的语法关系作为所述预定的数据库中的文档的语法单位中以最大名词单元为中心的语法关系。
应当注意,本文中所使用的术语仅用于描述具体的实施方式的目的,而非意在限制本申请。本文中所使用的单数形式的“一个”和“该(the)”意在还包括复数形式,除非上下文清楚地指出不同含义。还应当理解,术语“包括”在本说明书中使用时指所说明的特征、整体、操作、步骤、元件和/或部件的存在,但是不排除一个或更多个其他特征、整体、操作、步骤、元件、部件和/或其组合的存在或添加。
权利要求中的相应结构、材料、动作和以“装置或者步骤加功能”定义的要素的所有等同形式意在包括用于结合其他要求保护的要素来执行功能的任意结构、材料或动作。对本申请的描述是用于说明和描述的目的,而非意在以所公开的形式来穷举或限制本申请。本领域技术人员可以在不偏离本申请的范围和精神的情况下想到对本申请的很多修改和变化。所选择和描述的实施方式是为了最佳地解释本申请的原理和实际应用,并使得本领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来理解本申请。
Claims (11)
1.一种信息处理方法,包括:
按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度,其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;以及
根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
2.如权利要求1所述的方法,其中,将所述搜索请求中的关键词针对所述文档进行最大名词单元匹配包括:
将在所述文档中的各个关键词分别与所述各个关键词自身所在的最大名词单元进行匹配,根据匹配结果得到各个关键词的第一得分。
3.如权利要求2所述的方法,其中,根据匹配结果得到所述关键词的第一得分包括:
如果最大名词单元与所述关键词完全匹配,则设置所述关键词的第一得分为第一值;
如果最大名词单元与所述关键词部分匹配,则当所述关键词为所述最大名词单元的词尾时,设置所述关键词的第一得分为第二值,否则,设置所述关键词的第一得分为第三值;
其中,第一值、第二值和第三值均为大于零的实数,且第一值大于第二值,第二值大于第三值。
4.如权利要求2所述的方法,其中,当所述关键词中包含动词时,设置所述动词的第一得分为第六值。
5.如权利要求1-4中任一项所述的方法,其中,将所述搜索请求中的关键词针对所述文档进行语法关系匹配包括:
当所述搜索请求中包含一个关键词时,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到的所述各个关键词的第二得分作为语法关系匹配结果;
当所述搜求请求中包含具有逻辑和关系的多个关键词时,将所述多个关键词两两组合;针对任一组合,根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系计算在所述文档中的所述任一组合中的第一关键词与第二关键词的相关性,并根据所述相关性得到各个关键词的第三得分;并且,针对在所述文档中的任一关键词,根据所述任一关键词在所有组合中的第三得分得到所述任一关键词的第四得分作为所述任一关键词的语法关系匹配结果;
当所述搜求请求中包含具有逻辑或关系的多个关键词时,针对具有逻辑或关系的每一关键词分别执行下述处理:根据所述预定的数据库中预先存储的以最大名词单元为中心的语法关系获取在所述文档中的以各个所述每一关键词所在的最大名词单元为中心的语法关系,并将根据所述语法关系得到的各个所述每一关键词的第二得分作为语法关系匹配结果。
6.如权利要求5所述的方法,其中,根据所述语法关系得到各个关键词的第二得分包括:
如果所述关键词所在的最大名词单元与动词有语法关系,则所述第二得分为第四值;
如果所述关键词所在的最大名词单元与介词有语法关系,则所述第二得分为第五值;
其中,第四值和第五值均为大于零的实数,且第四值大于第五值。
7.如权利要求5所述的方法,其中,计算在所述文档中搜索到的所述任一组合中的第一关键词与第二关键词的相关性包括:
如果所述第一关键词与所述第二关键词构成直接语法关系,则所述第一关键词与所述第二管键词的相关性得分为第七值;否则
如果所述第一关键词与所述第二关键词在同一语法结构中,则所述第一关键词与所述第二关键词的相关性得分为第八值;否则
如果所述第一关键词与所述第二关键词在同一语法单位中,则所述第一关键词与所述第二关键词的相关性得分为第九值;否则
如果所述第一关键词与所述第二关键词在同一文档中,则所述第一关键词与所述第二关键词的相关性得分为第十值;否则
所述第一关键词与所述第二关键词的相关性得分为0;
其中,第七值、第八值、第九值和第十值为大于零的实数并且依次减小。
8.如权利要求7所述的方法,其中,当所述第一关键词与所述第二关键词为动词和名词时,若所述动词和名词构成主谓或动宾关系,则所述第一关键词与所述第二关键词构成直接语法关系;当所述第一关键词与所述第二关键词均为名词时,如果所述第一关键词与所述第二关键词和同一动词构成直接语法关系,则所述第一关键词与所述第二关键词构成直接语法关系。
9.如权利要求7所述的方法,其中,根据所述相关性得到各个关键词的第三得分包括:
按照相关性得分从大到小的顺序选取词对,其中,在所述文档中的每一个第一关键词或第二关键词只能存在于选取的一个词对中;
将所述选择的词对中的第一关键词和第二关键词的相关性得分作为所述选择的词对中的第一关键词和第二关键词的第三得分;
如果在所述文档中的第一关键词或第二关键词没有与其它关键词构成词对,则该第一关键词或第二关键词的第三得分为零。
10.如权利要求1-4中任一项所述的方法,其中,通过下述方式获得所述以最大名词单元为中心的语法关系:
对预定语料库中按预定语法单位进行语法分析,标注每个语法单位中的词汇的词性、最大名词单元,并标注以最大名词单元为中心的语法关系;
根据所述预定语料库中标注处理后的语法单位得到语法单位模板、以及语法单位模板对应的以最大名词单元为中心的语法关系;
标注所述预定的数据库中的文档的各个预定语法单位中的词汇的词性、最大名词单元;
将标注处理后的所述预定的数据库中的文档的语法单位与对应的语法单位模板进行匹配,并将与匹配到的语法单位模板对应的以最大名词单元为中心的语法关系作为所述预定的数据库中的文档的预定语法单位所具有的以最大名词单元为中心的语法关系。
11.一种信息处理装置,包括:
最大名词单元匹配部件,被配置用于按照预定语法单位将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配;和/或语法关系匹配部件,被配置用于按照预定语法单位将所述搜索请求中的关键词针对所述预定的数据库中的文档进行语法关系匹配;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;
相关度确定部件,被配置用于根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;以及
文档确定部件,被配置用于根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310611314.0A CN104679742A (zh) | 2013-11-26 | 2013-11-26 | 信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310611314.0A CN104679742A (zh) | 2013-11-26 | 2013-11-26 | 信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104679742A true CN104679742A (zh) | 2015-06-03 |
Family
ID=53314806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310611314.0A Pending CN104679742A (zh) | 2013-11-26 | 2013-11-26 | 信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679742A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414743A (zh) * | 2020-03-19 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 一种文档模板的调用方法、装置、电子设备及存储介质 |
CN112258074A (zh) * | 2020-11-02 | 2021-01-22 | 汤涛 | 一种基于大数据分析的电商商品仓储物流智能调度方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004753A (zh) * | 2007-01-25 | 2007-07-25 | 北京搜狗科技发展有限公司 | 一种概念型文档的识别方法和系统 |
CN101046808A (zh) * | 2006-03-31 | 2007-10-03 | 株式会社理光 | 一种文档处理系统和方法 |
CN101136018A (zh) * | 2006-08-29 | 2008-03-05 | 国际商业机器公司 | 为检索对多个文档进行预处理及呈现检索结果的方法和装置 |
WO2009092214A1 (zh) * | 2008-01-23 | 2009-07-30 | Huawei Technologies Co., Ltd. | 对发布信息进行处理的方法、客户端、服务器和系统 |
CN102646101A (zh) * | 2011-02-22 | 2012-08-22 | 阿里巴巴集团控股有限公司 | 一种推荐产品介绍信息的方法和装置 |
CN102789452A (zh) * | 2011-05-16 | 2012-11-21 | 株式会社日立制作所 | 类似内容提取方法 |
-
2013
- 2013-11-26 CN CN201310611314.0A patent/CN104679742A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046808A (zh) * | 2006-03-31 | 2007-10-03 | 株式会社理光 | 一种文档处理系统和方法 |
CN101136018A (zh) * | 2006-08-29 | 2008-03-05 | 国际商业机器公司 | 为检索对多个文档进行预处理及呈现检索结果的方法和装置 |
CN101004753A (zh) * | 2007-01-25 | 2007-07-25 | 北京搜狗科技发展有限公司 | 一种概念型文档的识别方法和系统 |
WO2009092214A1 (zh) * | 2008-01-23 | 2009-07-30 | Huawei Technologies Co., Ltd. | 对发布信息进行处理的方法、客户端、服务器和系统 |
CN102646101A (zh) * | 2011-02-22 | 2012-08-22 | 阿里巴巴集团控股有限公司 | 一种推荐产品介绍信息的方法和装置 |
CN102789452A (zh) * | 2011-05-16 | 2012-11-21 | 株式会社日立制作所 | 类似内容提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414743A (zh) * | 2020-03-19 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 一种文档模板的调用方法、装置、电子设备及存储介质 |
CN112258074A (zh) * | 2020-11-02 | 2021-01-22 | 汤涛 | 一种基于大数据分析的电商商品仓储物流智能调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783651B (zh) | 提取实体相关信息的方法、装置、电子设备和存储介质 | |
US6687689B1 (en) | System and methods for document retrieval using natural language-based queries | |
CN101878476B (zh) | 用于查询扩展的机器翻译 | |
CN101777042B (zh) | 信息检索领域中基于神经网络和标签库的语句相似度算法 | |
EP3179384A1 (en) | Method and device for parsing interrogative sentence in knowledge base | |
CN102880723A (zh) | 一种识别用户检索意图的搜索方法和系统 | |
US10795878B2 (en) | System and method for identifying answer key problems in a natural language question and answering system | |
CN103377226A (zh) | 一种智能检索方法及其系统 | |
CN103389988A (zh) | 一种引导用户进行信息搜索的方法及装置 | |
Ferrández et al. | Aligning FrameNet and WordNet based on Semantic Neighborhoods. | |
US11074281B2 (en) | Analogy outcome determination | |
US20150169539A1 (en) | Adjusting Time Dependent Terminology in a Question and Answer System | |
CN104699667A (zh) | 改进的基于语义词典的词语相似度计算方法和装置 | |
CN104881397A (zh) | 缩写词扩展方法和装置 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN104715063A (zh) | 搜索排序方法和装置 | |
Alian et al. | Arabic semantic similarity approaches-review | |
An et al. | Exploring characteristics of highly cited authors according to citation location and content | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
Shajalal et al. | Semantic textual similarity in bengali text | |
CN104679742A (zh) | 信息处理方法及装置 | |
CN108733848B (zh) | 一种搜索知识的方法及系统 | |
CN113051900A (zh) | 同义词识别方法、装置、计算机设备及存储介质 | |
Sanabila et al. | Automatic Wayang Ontology Construction using Relation Extraction from Free Text | |
CN109190115B (zh) | 一种文本匹配方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150603 |