CN107103066A - 一种用户偏好的检索方法及装置 - Google Patents

一种用户偏好的检索方法及装置 Download PDF

Info

Publication number
CN107103066A
CN107103066A CN201710253859.7A CN201710253859A CN107103066A CN 107103066 A CN107103066 A CN 107103066A CN 201710253859 A CN201710253859 A CN 201710253859A CN 107103066 A CN107103066 A CN 107103066A
Authority
CN
China
Prior art keywords
vocabulary
dictionary
user
fraction
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710253859.7A
Other languages
English (en)
Inventor
苏志凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201710253859.7A priority Critical patent/CN107103066A/zh
Publication of CN107103066A publication Critical patent/CN107103066A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种用户偏好的检索方法及装置。该方法包括:获取日志信息中包含的条文信息;对条文信息进行分词处理,获取至少一个词汇;将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配;当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配,确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息;并根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。对条文信息进行上述处理后,确定用户的偏好。并将用户的偏好反馈给营销客户,以便营销客户可以针对不同用户的偏好,推销对应的产品。

Description

一种用户偏好的检索方法及装置
技术领域
本发明涉及智能控制技术领域,尤其涉及一种用户偏好的检索方法及装置。
背景技术
计算机科学领域的一个重要分支就是“人工智能”,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在自然语言处理方面,如何让计算机识别和理解人类的语言,并且模拟人类思维方式去思考、推理问题,是完成“人工智能”这个人类伟大理想的重要举措。
从中文的角度而言,本身就具备复杂、表达同一种语义,可以包含多种形式等特点。同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”,可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”,再比如“XXX行贿中国石油公司”和“中国石油公司行贿XXX”。同样的内容不同的分割、不同的顺序,表达的意思就完全不一样。所以若想让计算机识别中文文本,第一步要做的就是告诉计算机在一句话中,哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性,所以准确分词技术是一项非常复杂和具有挑战性的工作。
常见的中文歧义类型有:
1、组合歧义:在分词过程中是最常遇到的,比如:“美国花旗银行”中的“国花”,“苏联想从边境撤军”中的“联想”,“技术和服务”中的“和服”等等非常多。
2、人名歧义:“宁静”、“杨柳”、“黎明”等等,语境歧义
3、语用歧义:“牦牛肉不好吃”,其中的“好”有两种意思,a)“味道不好吃”的意思;b)“不容易吃”的意思;
4、语境歧义:两米二六个头的姚明。并不是说姚明有“26个脑袋”
5、真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知识积累,也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。
6、分词颗粒问题:“中国人民解放军”可以是一个词,也可以是“中国人民解放军”在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不同。
7、分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完全不同,互联网网友的用词方式跟其他领域完全不同。
若不能正确的分词,计算机就无法正确识别中文文本的内容。
当能正确的分词仅仅是中文语义识别的第一步,必须还要能准确的对词义进行解析,让计算机“懂得”词的意义。
在现有技术中,如果用户想通过互联网搜索一些条目时,主要采用简单的关键词检索。而关键词识别规则过于简单,容易误判,也即是经常会出现上文中所述的歧义性的理解,不能正确的进行用户语义识别。因此,最终搜索到的条目可能并非是用户最终想要获取的条目。
发明内容
为解决上述技术问题,本发明提供了一种用户偏好的检索方法及装置。
第一方面,本发明提供了一种用户偏好的检索方法,该方法包括:
获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后,从后台生成的信息;
对条文信息进行分词处理,获取至少一个词汇;
将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配,其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇;
当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配,确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息;其中,基础词典包括至少一个词汇中的一个或者多个词汇;
并根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
本发明的有益效果是:实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后,确定用户的偏好。并将用户偏好推荐给营销商,以便营销商能够针对不同用户的偏好,生成相应的产品后,在推销给用户。
进一步,当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。
采用上述进一步的方案的有益技术效果在于,当至少一个词汇中的任一个词汇与预配置的反向词典中的词汇匹配成功时,说明该条文并非所要搜索的目的条文,即该条文对于确定用户偏好没有帮助,对营销商而言,没有太大的意义。因此,舍弃该条文。
进一步,根据相似度,确定用户偏好,以及与一个或者多个词汇对应的关联信息,具体包括:
根据相似度,确定初始匹配分数;
根据初始匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的技术方案的有益技术效果在于,通过分数,可以更加直观的确定用户的偏好。
进一步的,根据相似度,确定初始匹配分数之后,方法还包括:
将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇;
当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数;
根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的技术方案的有益技术效果在于:通过上一步骤,仅仅是获取了初始分数,而通过将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,如果能够匹配成功,则可以进一步的确定用户的偏好。因此,在匹配成功时,在初始匹配分数的基础上按照第一预定规则,进行加分处理。最终根据加分后的分数确定用户的偏好。
进一步的,当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数之后,方法还包括:
确定用户搜索条文信息时使用的域名;
当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数;
根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的方案的有益技术效果在于,同上面的进一步的步骤类似的,通过确定用户搜索条文信息时使用的域名,同样可以帮助理解用户的偏好。例如用户搜索音乐名称时,如果是从酷我搜索,说明用户想要听取这首歌曲。而当用户从百度搜索时,则是希望了解歌曲名称或者其他相关信息。并非想听音乐。
第二方面,本发明提供了一种用户偏好的检索装置,该装置包括:
获取单元,用于获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后,从后台生成的信息;
分词单元,用于对条文信息进行分词处理,获取至少一个词汇;
匹配单元,用于将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配,其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇;
当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配;
处理单元,用于确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息;其中,基础词典包括至少一个词汇中的一个或者多个词汇;
根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
本发明的有益效果是:实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后,确定用户的偏好。并将用户偏好推荐给营销商,以便营销商能够针对不同用户的偏好,生成相应的产品后,在推销给用户。
进一步,处理单元还用于,当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。
采用上述进一步的方案的有益技术效果在于,当至少一个词汇中的任一个词汇与预配置的反向词典中的词汇匹配成功时,说明该条文并非所要搜索的目的条文,即该条文对于确定用户偏好没有帮助,对营销商而言,没有太大的意义。因此,舍弃该条文。
进一步,处理单元具体用于,
根据相似度,确定初始匹配分数;
根据初始匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的技术方案的有益技术效果在于,通过分数,可以更加直观的确定用户的偏好。
进一步的,匹配单元还用于,将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇;
处理单元还用于,当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数;
根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的技术方案的有益技术效果在于:通过上一步骤,仅仅是获取了初始分数,而通过将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,如果能够匹配成功,则可以进一步的确定用户的偏好。因此,在匹配成功时,在初始匹配分数的基础上按照第一预定规则,进行加分处理。最终根据加分后的分数确定用户的偏好。
进一步的,处理单元还用于,确定用户搜索条文信息时使用的域名;当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数;
根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
采用上述进一步的技术方案的有益技术效果在于:同上面的进一步的步骤类似的,通过确定用户搜索条文信息时使用的域名,同样可以帮助理解用户的偏好。例如用户搜索音乐名称时,如果是从酷我搜索,说明用户想要听取这首歌曲。而当用户从百度搜索时,则是希望了解歌曲名称或者其他相关信息。并非想听音乐。
附图说明
图1为本发明实施例提供的一种用户偏好的检索方法流程示意图;
图2为本发明实施例提供的一种用户偏好的检索装置原理示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定方法结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的方法、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1为本发明实施例提供的一种用户偏好的检索方法流程图。如图1所示,本实施例包括以下步骤:
步骤110,获取日志信息中包含的条文信息。
具体的,条文信息是用户通过应用软件(例如百度)输入的信息,主要用于搜索与条文信息对应的内容。而在用户通过应用软件输入信息时,系统会自动在后台生成日志信息。而本发明所涉及的方案则是从后台产生的日志信息中,获取到条文信息。
步骤120,对条文信息进行分词处理,获取至少一个词汇。
具体的,在本发明中主要使用了开源的分词工具IKAnalyzer对条文信息进行分词处理,获取至少一个词汇。
步骤130,将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配。
具体的,反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇。例如,利用分词工具将条文信息分成了两个词汇,那么词典中包括的词汇均是与这两个词汇中每一个词汇的关联度都低于第一预定阈值的词汇。将至少一个词汇和反向词典中的词汇进行匹配,主要是为了确定目标条文。去除哪些没有利用价值的条文,为后续工作减轻工作量。例如,我们所想要得到的条文是音乐领域的条文,获取的是与音乐有关的歌名、原唱、专辑、编曲作家,以及相应乐器等等。而反向词典中所包括的是:翻唱、搞怪版、卡碟、卡带、断裂、坏了等等不太相关的词汇。
步骤140,当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配,确定至少一个词汇与基础词典中词汇的相似度。
具体的,当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,说明该条文经初步筛选后,可以粗略的认为是目标条文。将至少一个词汇与预配置的基础词典中词汇进行匹配。由此来确定至少一个词汇与基础词典中词汇的相似度。其中,基础词典中包括至少一个词汇中的一个或者多个词汇。在实际应用中,匹配引擎可以使用以Lucene为应用主体,结合反向词典,基础词典等,以及文法分析算法的IKAnalyzer3的核心API来实现匹配功能。在具体的匹配过程中,可以首先采用循环匹配的方式,也即是,将拆分好的词汇,从左至右,依次和反向词典(或者基础词典)中的词汇进行匹配。然后,在采用循环叠加匹配的方式,也即是至少两个词汇的组合,和反向词典(或者基础词典)中的词汇进行匹配,最终,再采用整体匹配的方式(可选的),和反向词典(或者基础词典)中的词汇进行匹配。语义评估器通过和IKAnalyzer3的核心API结合采用固定算法确定至少一个词汇与基础词典中词汇的相似度。
进一步的,在将至少一个词汇与基础词典中的词汇进行匹配过程中,还包括步骤150,从基础词典中获取与一个或者多个词汇对应的关联信息。
具体的,同样以在音乐领域为例,条文信息中拆分出来的词汇为“剑心”,“张杰”。在基础词汇中与“剑心”,“张杰”等相关联的词汇包括:名称:剑心,原唱:张杰,专辑:古剑奇谭,填词:段思思,谱曲:谭旋,编曲:王文颖,语言:国语,演奏:亚洲爱乐团交响乐团等关联信息。
步骤160,根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
具体的,根据至少一个词汇在基础词典中的词汇的相似度,以及与一个或者多个词汇对应的关联信息,可以大致清楚用户所有搜索的相关内容。从这些内容中确定用户的偏好。例如步骤150中的,通过至少一个词汇和与至少一个词汇中一个或者多个词汇对应的关联信息,可以确定用户所有搜索的是与张杰演唱的歌曲“剑心”相关的材料。那么,用户很可能所喜欢的是张杰这个歌手,或者,喜欢的是张杰演唱的剑心这首歌曲。或者,喜欢歌曲中词曲等等。
众所周知,数字能够更加直观的体现一种现象。因此,在确定用户的偏好时,还可以采用分数形式体现。
优选的,可以根据至少一个词汇与基础词典中的词汇的相似度,确定初始匹配分数。并根据初始匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户的偏好。
进一步优选的,根据相似度,确定初始匹配分数之后,方法还包括:将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇。当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数;根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。这里的正向词典,读者可以理解为起到辅助作用的词典。也即是起到了更好确定用户偏好作用的词典。同样,以音乐领域为例,该正向词典中所包括的词汇,例如:下载、铃声、多少钱、价格、报价、专辑、演唱会等等。当然匹配的方式,同与反向词典或者基础词典中匹配的方式类似,这里不再赘述。而当至少一个词汇中的一个或者多个词汇和正向词典中的词汇相匹配时,说明用户可能更倾向于搜索与某一歌曲或者专辑相关的内容,方便推销商根据用户偏好,推销相关的产品。所以,可以作为一个加分动作。具体加分机制,也即是第一预设规则,可以人为根据需要设定。
进一步的,除了上述的和各类词典相匹配之外,还可以包括确定用户在输入条文信息时使用的域名。也即是,当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数之后,方法还包括:确定用户搜索条文信息时使用的域名;当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数;根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
这里,同样以音乐为例进行说明,如果用户使用的域名是酷我音乐对应的域名或者虾米音乐对应的域名,那么,很明显用户感兴趣的是某一首音乐。而并非是其他无关紧要的内容,那么对于确定用户的偏好而言,具有很大的帮助。所以,可以作为一个加分动作,具体的加分机制同样根据实际需要人为设定。
当然,确定域名的过程,以及与正向词典中词汇匹配的过程都是可选的,没有先后顺序,也并不是只有一个执行完成后才能执行后一个。而是二者中可以至执行一个,或者执行两个。本发明中并不做任何限定。完全根据需求人员的需求设定。
还需要说明的是,在步骤140中,当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。也即是说,该条文并非所需要的目标条文。因此,将不再做后续处理。
设定相应的评分机制,可以更好的确定用户的偏好。将用户的偏好推荐给营销人员后,营销人员可以根据不同用户的需求,设定与用户对应的营销方案,进而促进营销。而在本实施例中,主要是以音乐领域为例进行说明的,但是并不限于音乐领域。还可以是其他领域,例如小说、电影等等。而预设的反向词典、正向词典以及基础词典等也并不是唯一的,而是针对不同的领域预先设置的。而且,词典中的词汇也会根据需要实时进行更新。
本发明实施例提供的一种用户偏好的检索方法,实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后,确定用户的偏好。并将用户偏好推荐给营销商,以便营销商能够针对不同用户的偏好,生成相应的产品后,在推销给用户。从而尽量的营销商带来更多的收益。
相应地,本发明实施例还提供了一种用户偏好的检索装置原理示意图。如图2所示,该装置包括:获取单元201、分词单元202、匹配单元203和处理单元204。
获取单元201,用于获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后,从后台生成的信息;
分词单元202,用于对条文信息进行分词处理,获取至少一个词汇;
匹配单元203,用于将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配,其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇;
当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时,将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配;
处理单元204,用于确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息;其中,基础词典包括至少一个词汇中的一个或者多个词汇;
根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。
优选的,处理单元204还用于,当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。
而处理单元204根据相似度,确定用户偏好,以及与一个或者多个词汇对应的关联信息,具体包括:根据相似度,确定初始匹配分数;根据初始匹配分数,确定用户偏好。
而在获取初始匹配分数之后,为了能够更精确的确定用户的偏好。匹配单元203还可以用于,将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇;
处理单元204还用于,当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数;根据第二匹配分数,确定用户偏好。
进一步的,处理单元204还用于,确定用户搜索条文信息时使用的域名;当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数;根据获取的第三匹配分数,确定用户偏好。
该装置中的各部件所执行的功能已经在上述实施例一种用户偏好的检索方法中做了详细的介绍,这里不再赘述。
本发明实施例提供的一种用户偏好的检索装置,实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后,确定用户的偏好。并将用户偏好推荐给营销商,以便营销商能够针对不同用户的偏好,生成相应的产品后,在推销给用户。从而尽量的营销商带来更多的收益。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种用户偏好的检索方法,其特征在于,所述方法包括:
获取日志信息中包含的条文信息,其中所述日志信息为接收用户输入的条文信息后,从后台生成的信息;
对所述条文信息进行分词处理,获取至少一个词汇;
将所述至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配,其中所述反向词典包括与所述至少一个词汇的关联度低于第一预定阈值的词汇;
当所述至少一个词汇中的每一个词汇与所述预配置的反向词典中的词汇匹配失败时,将所述至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配,确定所述至少一个词汇与所述基础词典中词汇的相似度,并从所述基础词典中获取与一个或者多个词汇对应的关联信息;其中,所述基础词典包括所述至少一个词汇中的一个或者多个词汇;
并根据所述相似度,以及所述与所述一个或者多个词汇对应的关联信息,确定用户偏好。
2.根据权利要求1所述的方法,其特征在于,所述当所述至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃所述条文信息,停止操作。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述相似度,以及所述与所述一个或者多个词汇对应的关联信息,确定用户偏好,具体包括:
根据所述相似度,确定初始匹配分数;
根据所述初始匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定用户偏好。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度,确定初始匹配分数之后,所述方法还包括:
将所述至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中所述正向词典包括与所述至少一个词汇的关联度高于第一预定阈值的词汇;
当所述至少一个词汇中的一个或者多个词汇与所述预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在所述初始匹配分数的基础上进行加分,获取第二匹配分数;
根据所述第二匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定所述用户偏好。
5.根据权利要求4所述的方法,其特征在于,所述当所述至少一个词汇中的一个或者多个词汇与所述预配置的正向词典中的词汇匹配成功时,按照预设规则,在所述初始匹配分数的基础上进行加分,获取第二匹配分数之后,所述方法还包括:
确定所述用户搜索条文信息时使用的域名;
当所述用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在所述第二匹配分数的基础上进行加分,获取第三匹配分数;
根据所述获取的第三匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定所述用户偏好。
6.一种用户偏好的检索装置,其特征在于,所述装置包括:
获取单元,用于获取日志信息中包含的条文信息,其中所述日志信息为接收用户输入的条文信息后,从后台生成的信息;
分词单元,用于对所述条文信息进行分词处理,获取至少一个词汇;
匹配单元,用于将所述至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配,其中所述反向词典包括与所述至少一个词汇的关联度低于第一预定阈值的词汇;
当所述至少一个词汇中的每一个词汇与所述预配置的反向词典中的词汇匹配失败时,将所述至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配;
处理单元,用于确定所述至少一个词汇与所述基础词典中词汇的相似度,并从所述基础词典中获取与一个或者多个词汇对应的关联信息;其中,所述基础词典包括所述至少一个词汇中的一个或者多个词汇;
根据所述相似度,以及所述与所述一个或者多个词汇对应的关联信息,确定用户偏好。
7.根据权利要求6所述的装置,其特征在于,所述处理单元还用于,当所述至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃所述条文信息,停止操作。
8.根据权利要求6或7所述的装置,其特征在于,所述处理单元具体用于,
根据所述相似度,确定初始匹配分数;
根据所述初始匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定用户偏好。
9.根据权利要求8所述的装置,其特征在于,所述匹配单元还用于,将所述至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中所述正向词典包括与所述至少一个词汇的关联度高于第一预定阈值的词汇;
所述处理单元还用于,当所述至少一个词汇中的一个或者多个词汇与所述预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在所述初始匹配分数的基础上进行加分,获取第二匹配分数;
根据所述第二匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定所述用户偏好。
10.根据权利要求9所述的装置,其特征在于,所述处理单元还用于,
确定所述用户搜索条文信息时使用的域名;当所述用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在所述第二匹配分数的基础上进行加分,获取第三匹配分数;
根据所述获取的第三匹配分数,以及所述与所述一个或者多个词汇对应的关联信息,确定所述用户偏好。
CN201710253859.7A 2017-04-18 2017-04-18 一种用户偏好的检索方法及装置 Pending CN107103066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710253859.7A CN107103066A (zh) 2017-04-18 2017-04-18 一种用户偏好的检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710253859.7A CN107103066A (zh) 2017-04-18 2017-04-18 一种用户偏好的检索方法及装置

Publications (1)

Publication Number Publication Date
CN107103066A true CN107103066A (zh) 2017-08-29

Family

ID=59657076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710253859.7A Pending CN107103066A (zh) 2017-04-18 2017-04-18 一种用户偏好的检索方法及装置

Country Status (1)

Country Link
CN (1) CN107103066A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951070A (zh) * 2020-07-31 2020-11-17 上海博泰悦臻电子设备制造有限公司 基于车联网的智能推荐方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
US20150081683A1 (en) * 2009-07-20 2015-03-19 Alibaba Group Holding Limited Ranking search results based on word weight
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
US20150081683A1 (en) * 2009-07-20 2015-03-19 Alibaba Group Holding Limited Ranking search results based on word weight
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951070A (zh) * 2020-07-31 2020-11-17 上海博泰悦臻电子设备制造有限公司 基于车联网的智能推荐方法、装置、服务器及存储介质
CN111951070B (zh) * 2020-07-31 2023-12-22 博泰车联网科技(上海)股份有限公司 基于车联网的智能推荐方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN104699730B (zh) 用于识别候选答案之间的关系的方法和系统
CN111401066B (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
WO2014208213A1 (ja) ノン・ファクトイド型質問応答システムおよび方法
CN106650943A (zh) 基于人工智能的辅助写作方法和装置
JP7008096B2 (ja) 関連付け関心点に基づく文推奨方法及び装置
CN104298658B (zh) 获取搜索结果的方法和装置
Ahmad et al. Tools and techniques for lexicon driven sentiment analysis: a review
CN113157727B (zh) 提供召回结果的方法、设备和存储介质
KR20120101233A (ko) 감성 정보 생성 방법, 그를 이용한 감성 정보 기반의 콘텐츠 추천 방법 및 시스템
Widyantoro et al. Citation sentence identification and classification for related work summarization
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
Farajzadeh et al. PMG-Net: Persian music genre classification using deep neural networks
Qu et al. A novel approach based on multi-view content analysis and semi-supervised enrichment for movie recommendation
CN108536671B (zh) 文本数据的情感指数识别方法和系统
Wauquier et al. Contributions of distributional semantics to the semantic study of French morphologically derived agent nouns
CN107103066A (zh) 一种用户偏好的检索方法及装置
KR20170034481A (ko) 사용자 예측 지능형 개인맞춤 모바일 음원 추천 시스템 및 그 방법
CN109802987B (zh) 用于显示装置的内容推送方法、推送装置和显示设备
Phi Integrating word embedding offsets into the espresso system for part-whole relation extraction
Straka et al. Prague at EPE 2017: the UDPipe system
Kim et al. Implementation and analysis of mood-based music recommendation system
JPH08166965A (ja) 日本語テキスト自動分類方法
JPH1069482A (ja) 話題処理装置
Ricard et al. Bag of MFCC-based Words for Bird Identification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170829