CN107679030A - 基于用户操作行为数据提取同义词的方法和装置 - Google Patents
基于用户操作行为数据提取同义词的方法和装置 Download PDFInfo
- Publication number
- CN107679030A CN107679030A CN201710785024.6A CN201710785024A CN107679030A CN 107679030 A CN107679030 A CN 107679030A CN 201710785024 A CN201710785024 A CN 201710785024A CN 107679030 A CN107679030 A CN 107679030A
- Authority
- CN
- China
- Prior art keywords
- search term
- operation behavior
- search
- data
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于用户操作行为数据提取同义词的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于用户操作行为数据,确定每类操作行为的操作数据链路,操作数据链路包括:操作行为的操作对象及其搜索词;根据操作数据链路,确定第一搜索词在每类操作行为的第一操作对象分布、以及第二搜索词在每类操作行为的第二操作对象分布;依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若该相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词。本发明实施例适用于各种应用场景,大大提高同义词提取的时效性和准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于用户操作行为数据提取同义词的方法和装置。
背景技术
现有技术中,主要通过词典数据和人工标记提取同义词。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1)基于词典数据提取同义词的方法依赖于人工标记,效率低;
2)词典数据的数据量有限,影响同义词提取的准确率;
3)词典数据的更新速度慢,无法适用于日益复杂的应用场景。
发明内容
有鉴于此,本发明实施例提供一种基于用户操作行为数据提取同义词的方法和装置,能够适用于各种应用场景,大大提高同义词提取的时效性和准确率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于用户操作行为数据提取同义词的方法,包括:
基于用户操作行为数据,确定每类操作行为的操作数据链路;
根据所述操作数据链路,确定第一搜索词在每类操作行为的第一操作对象分布、以及第二搜索词在每类操作行为的第二操作对象分布;
依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若该相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词;
其中,操作数据链路包括:操作行为的操作对象及其搜索词。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值。
可选地,第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。
可选地,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
可选地,本实施例的同义词提取方法进一步包括:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
可选地,本实施例的方法包括:
根据第一操作对象分布确定第一搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重、以及第一搜索词在每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重以及第二搜索词在每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分,确定第一搜索词和第二搜索词的同义词方向。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
可选地,
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
可选地,预设的方向阈值为100。
可选地,本实施例的方法包括:
按照预设的筛选条件对用户操作行为数据进行筛选;
基于筛选后的用户操作行为数据,确定每类操作行为的操作数据链路。
可选地,本实施例的方法包括:
获取用户搜索日志;
按照预设的清洗规则对搜索日志进行清洗;
从清洗后的搜索日志中提取搜索词;
其中,用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据。
可选地,清洗规则包括以下至少之一:
去除页面浏览量排序前1%的搜索数据;
去除没有用户标识ID的搜索数据;
去除无法确定来源的搜索数据;
去除预设时间内搜索数据过多的用户所对应的搜索数据;
去除黑名单网络协议IP上的搜索数据。
可选地,提取搜索词之后进一步包括:对搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除搜索词前部和/或后部的空白字符;
将搜索词中连续出现的多个空白字符变为一个空白字符;
提出搜索词中的不可见字符;
将搜索词中的大写字符转换为小写字符;
将搜索词中的繁体字转换为简体字。
根据本发明实施例的再一个方面,提供了一种基于用户操作行为数据提取同义词的装置,包括:
数据采集模块:基于用户操作行为数据,确定每类操作行为的操作数据链路;操作数据链路包括:操作行为的操作对象及其搜索词;
数据处理模块:根据操作数据链路,确定第一搜索词在每类操作行为的第一操作对象分布、以及第二搜索词在每类操作行为的第二操作对象分布;
数据分析模块:依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若该相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值。
可选地,第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。
可选地,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
可选地,数据分析模块进一步用于:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
可选地,本实施例的装置包括:
根据第一操作对象分布确定第一搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重、以及第一搜索词在每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重以及第二搜索词在每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分,确定第一搜索词和第二搜索词的同义词方向。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
可选地,
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
可选地,预设的方向阈值为100。
可选地,数据采集模块进一步用于:
按照预设的筛选条件对用户操作行为数据进行筛选;基于筛选后的用户操作行为数据,确定每类操作行为的操作数据链路。
可选地,数据采集模块进一步用于:
获取用户搜索日志;
按照预设的清洗规则对搜索日志进行清洗;
从清洗后的搜索日志中提取搜索词;
其中,用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据。
可选地,清洗规则包括以下至少之一:
去除页面浏览量排序前1%的搜索数据;
去除没有用户标识ID的搜索数据;
去除无法确定来源的搜索数据;
去除预设时间内搜索数据过多的用户所对应的搜索数据;
去除黑名单网络协议IP上的搜索数据。
可选地,数据采集模块进一步用于用于:提取搜索词之后对搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除搜索词前部和/或后部的空白字符;
将搜索词中连续出现的多个空白字符变为一个空白字符;
提出搜索词中的不可见字符;
将搜索词中的大写字符转换为小写字符;
将搜索词中的繁体字转换为简体字。
根据本发明实施例的另一个方面,提供了一种基于用户操作行为数据提取同义词的终端,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的基于用户操作行为数据提取同义词的方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的基于用户操作行为数据提取同义词的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用通过根据每类操作行为的操作数据链路确定第一操作对象分布和第二操作对象分布、依据第一操作对象分布和第二操作对象分布确定第一搜索词与第二搜索词是否为同义词的技术手段,所以克服了依赖词典数据和人工标记提取同义词的技术问题,进而达到能够适用于各种应用场景、大大提高提取同义词的时效性和准确率的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于用户操作行为数据提取同义词的方法的主要流程的示意图;
图2是根据本发明实施例的基于用户操作行为数据提取同义词的装置的主要模块的示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的终端或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的基于用户操作行为数据提取同义词的方法的主要流程的示意图,如图1所示,包括:
步骤S101、基于用户操作行为数据,确定每类操作行为的操作数据链路;
步骤S102、根据操作数据链路,确定第一搜索词在该每类操作行为的第一操作对象分布、以及第二搜索词在该每类操作行为的第二操作对象分布;
步骤S103、依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若该相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词;
其中,操作数据链路包括:操作行为的操作对象及其搜索词。
本发明基于用户操作行为数据提取同义词,而不是依赖于词典数据,因此能够避免由于词典数据需要依赖人工标记、数据量少、更新速度慢而导致的效率低、准确性差以及无法适用于各种应用场景等问题。用户操作行为数据的数据量大,能够大大通过同义词提取的准确性;用户操作行为数据可以根据实际情况随时更新,能够提高同义词提取的时效性,并适用于日益变化的各种应用场景。
本实施例中提及的“每类操作行为”,可以包括用户可能操作的各类操作行为,也可以指满足设定条件的操作行为。以社交网站领域为例,用户可能操作的操作行为有“登陆”、“评论”、“转发”、“收藏”、“关注”等,本实施例中的“每类操作行为”可以指上述每一种操作行为;当“收藏”、“关注”等操作行为对同义词提取的影响较小时,也可以将“收藏”、“关注”等操作行为筛除,以剩余的操作行为作为本实施例中的“每类操作行为”。以电商领域为例,用户可能操作的操作行为有“登陆”、“浏览”、“购买”、“收藏”、“关注”等,本实施例中的“每类操作行为”可以指上述每一种操作行为;当“登陆”、“收藏”、“关注”等操作行为对同义词提取的影响可以忽略时,也可以将“登陆”、“收藏”、“关注”等操作行为筛除,以“浏览”、“购买”作为本实施例中的“每类操作行为”。
操作数据链路包括:操作行为的操作对象及其搜索词。例如,通过搜索词“iphone”搜索并购买某一商品,该商品的编号为123456,则该条操作数据链路可以记为:“iphone”-“123456”。
随着生活环境的变化,某些搜索词可能具有完全不同的含义。以“樱桃”和“机械键盘”为例,在传统生活环境中,“樱桃”是指一种植物性水果,“机械键盘”不可能与“樱桃”构成同义词;随着樱桃键盘的问世和普及,在手机领域,在一定程度上“机械键盘”可以被认定为是“樱桃”的同义词。为了便于分析获取局部范围内的同义词,本实施例的方法可以进一步包括:
按照预设的筛选条件对用户操作行为数据进行筛选;
基于筛选后的用户操作行为数据,确定每类操作行为的操作数据链路。
本发明中的“用户操作行为数据”,可以指一个用户的操作行为数据,以根据一个用户的兴趣和历史数据提取同义词;也可以指两个或更多个用户的操作行为数据,例如,以具有某一共同属性特征的用户的操作行为数据作为本实施例中的“用户操作行为数据”,以基于具有该共同特征的用户的兴趣和历史信息提取同义词。
进一步地,本发明中的“用户操作行为数据”可以是指针对一种操作对象的操作行为数据,以根据用户对该一种操作对象的兴趣和历史数据提取同义词。以电商领域为例,本发明中的“用户操作行为数据”可以是指针对服饰类或家居类商品的操作行为数据。当然,本发明中的“用户操作行为数据”也可以是指针对两种或更多种操作对象的操作行为数据,以在线翻译领域为例,本发明中的“用户操作行为数据”可以指针对期刊论文类文章和专利类文章的操作行为数据。
在一些可选的实施例中,每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值;||表示操作对象的集合中操作对象的数量,以|A∩B|为例,代表A和B求交集后操作对象的集合中操作对象的数量,|A-B|代表从A中去除B后操作对象的集合中操作对象的数量。
以电商领域为例,第一操作行为可以指用户的购买行为,第二操作行为可以指用户的浏览行为。本实施例中基于两种操作行为的数据即可分析得到同义词,无需依赖于词典数据和人工标记,效率更高、准确性更好。
第一操作行为的相似度权重值和第二操作行为的相似度权重值可以根据应用场景的实际情况进行设置,例如第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。通过设置合适的相似度权重值,能够避免将具有同义词关系的词与词作为非同义词、或者将不具有同义词关系的词与词作为同义词,提高提取同义词的结果准确性。以电商领域为例,第一操作行为是购买行为,其相似度权重值为0.8,第二操作行为是浏览行为,其相似度权重值为0.2。若浏览行为的相似度权重值过大,容易导致将部分热搜词与大量无关词建立同义词关系。
第一搜索词与第二搜索词的相似度越大,表明第一搜索词与第二搜索词的含义越接近。实际使用过程中,可以根据允许的置信区间预先设置一个相似度阈值,若第一搜索词与第二搜索词的相似度大于该阈值,则确定第一搜索词与第二搜索词为同义词。相似度阈值的取值可以根据应用场景的实际情况进行设置,若相似度阈值的取值过小,会造成将大量不具有同义词关系的词与词作为同义词;若相似度阈值过大,容易将具有同义词关系的词与词作为非同义词,降低搜索结果的=召回率。在一些实施例中,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
为了更准确地描述第一搜索词与第二搜索词之间的同义词关系、提高搜索结果的召回率,本发明的方法可以进一步包括:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
同义词方向用于定义同义词可以替换的方向,例如,在手机领域,“iphone”与“苹果”可以看作同义词,“iphone”与“苹果”的同义词方向是双向的,可以记为:iphone苹果;再例如,“樱桃”可以替换“机械键盘”,但是反过来不可以,则“樱桃”与“机械键盘”的同义词方向是单向的,可以记为:樱桃→机械键盘。
在一些可选的实施例中,包括:
根据第一操作对象分布确定第一搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重、以及第一搜索词在每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重以及第二搜索词在每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分,确定第一搜索词和第二搜索词的同义词方向。
第一得分与第二得分越接近,表明第一搜索词对应的操作对象与第二搜索词对应的操作对象的分布越接近。本实施例基于第一得分和第二得分确定第一搜索词和第二搜索词的同义词方向,计算方法简单、计算结果的准确性高。
优选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
在一些可选的实施例中,通过如下方式确定第一搜索词与第二搜索词的同义词方向:
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
方向阈值的取值可以根据应用场景的实际情况以及允许的置信区间进行设置。若方向阈值的取值过大,会造成将大量不具有双向关系的同义词作为双向同义词;若方向阈值的取值过小,会将大量具有双向关系的同义词作为单向同义词,降低提取同义词的结果准确性以及基于同义词进行搜索时搜索结果的召回率。在一些优选的实施例中,预设的方向阈值为100。
在一些实施例中,提取同义词的方法可以包括:
获取用户搜索日志;用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据;
按照预设的清洗规则对搜索日志进行清洗;
从清洗后的搜索日志中提取搜索词。
通过清洗,能够去除大量非法数据,提高提取同义词的结果准确性。
优选地,清洗规则包括以下至少之一:
去除页面浏览量排序前1%的搜索数据;这些搜索数据大多为非人为数据,将其去除能够提高数据的有效性;
去除没有用户标识ID的搜索数据;没有用户ID的搜索数据往往没有对应的操作行为,以电商领域为例,未登陆的用户ID往往没有购买行为,若以这种搜索数据为基础提取同义词,若以将大量搜索词与其他无关词建立同义词关系,影响提取同义词的结果准确性和搜索结果的召回率;
去除无法确定来源的搜索数据;如此,可以提高数据有效性和安全性;
去除预设时间内搜索数据过多的用户所对应的搜索数据;如此可以防止恶意操作行为对提取同义词产生的不良影响;
去除黑名单网络协议IP上的搜索数据,如此可以排除恶意操作行为对提取同义词产生的不良影响。
在一些实施例中,提取搜索词之后进一步包括:对搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除搜索词前部和/或后部的空白字符;
将搜索词中连续出现的多个空白字符变为一个空白字符;
提出搜索词中的不可见字符;
将搜索词中的大写字符转换为小写字符;
将搜索词中的繁体字转换为简体字。
通过归一化处理,能够提高搜索词之间的可比性,便于获取搜索词与对应操作行为的操作对象之间的操作数据链路。
本发明还提供了基于用户操作行为数据提取同义词的装置200,如图2所示,包括:
数据采集模块201:基于用户操作行为数据,确定每类操作行为的操作数据链路;操作数据链路包括:操作行为的操作对象及其搜索词;
数据处理模块202:根据操作数据链路,确定第一搜索词在每类操作行为的第一操作对象分布、以及第二搜索词在每类操作行为的第二操作对象分布;
数据分析模块203:依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若该相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值;||表示操作对象的集合中操作对象的数量,以|A∩B|为例,代表A和B求交集后操作对象的集合中操作对象的数量,|A-B|代表从A中去除B后操作对象的集合中操作对象的数量。
可选地,第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。
可选地,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
可选地,数据分析模块203进一步用于:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
可选地,本实施例的装置200包括:
根据第一操作对象分布确定第一搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重、以及第一搜索词在每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在每类操作行为的操作对象的数量;基于每类操作行为的权重以及第二搜索词在每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分,确定第一搜索词和第二搜索词的同义词方向。
可选地,每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
可选地,
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
可选地,预设的方向阈值为100。
可选地,数据采集模块201进一步用于:
按照预设的筛选条件对用户操作行为数据进行筛选;基于筛选后的用户操作行为数据,确定每类操作行为的操作数据链路。
可选地,数据采集模块201进一步用于:
获取用户搜索日志;
按照预设的清洗规则对搜索日志进行清洗;
从清洗后的搜索日志中提取搜索词;
其中,用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据。
可选地,清洗规则包括以下至少之一:
去除页面浏览量排序前1%的搜索数据;
去除没有用户标识ID的搜索数据;
去除无法确定来源的搜索数据;
去除预设时间内搜索数据过多的用户所对应的搜索数据;
去除黑名单网络协议IP上的搜索数据。
可选地,数据采集模块201进一步用于用于:提取搜索词之后对搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除搜索词前部和/或后部的空白字符;
将搜索词中连续出现的多个空白字符变为一个空白字符;
提出搜索词中的不可见字符;
将搜索词中的大写字符转换为小写字符;
将搜索词中的繁体字转换为简体字。
根据本发明实施例的另一个方面,提供了一种基于用户操作行为数据提取同义词的终端,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的基于用户操作行为数据提取同义词的方法。
图3示出了可以应用本发明实施例的基于用户操作行为数据提取同义词的方法或装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的基于用户操作行为数据提取同义词的方法一般由服务器305执行,相应地,基于用户操作行为数据提取同义词的装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备实现本发明基于用户操作行为数据提取同义词的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (28)
1.一种基于用户操作行为数据提取同义词的方法,其特征在于,包括:
基于用户操作行为数据,确定每类操作行为的操作数据链路;所述操作数据链路包括:操作行为的操作对象及其搜索词;
根据所述操作数据链路,确定第一搜索词在所述每类操作行为的第一操作对象分布、以及第二搜索词在所述每类操作行为的第二操作对象分布;
依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若所述相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词。
2.如权利要求1所述的方法,其特征在于,所述每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
<mrow>
<msub>
<mi>I</mi>
<mrow>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<msub>
<mi>W</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>A</mi>
<mo>&cap;</mo>
<mi>B</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>A</mi>
<mo>-</mo>
<mi>B</mi>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<mi>A</mi>
<mo>&cap;</mo>
<mi>B</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>+</mo>
<mi>&beta;</mi>
<mo>&times;</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>C</mi>
<mo>&cap;</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>C</mi>
<mo>-</mo>
<mi>D</mi>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<mi>C</mi>
<mo>&cap;</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值。
3.如权利要求2所述的方法,其特征在于,第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。
4.如权利要求3所述的方法,其特征在于,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
5.如权利要求1所述的方法,其特征在于,进一步包括:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
6.如权利要求5所述的方法,其特征在于,包括:
根据第一操作对象分布确定第一搜索词在所述每类操作行为的操作对象的数量;基于所述每类操作行为的权重、以及第一搜索词在所述每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在所述每类操作行为的操作对象的数量;基于所述每类操作行为的权重以及第二搜索词在所述每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分确定第一搜索词和第二搜索词的同义词方向。
7.如权利要求6所述的方法,其特征在于,所述每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
8.如权利要求7所述的方法,其特征在于,
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
9.如权利要求8所述的方法,其特征在于,所述预设的方向阈值为100。
10.如权利要求1-9任一所述的方法,其特征在于,包括:
按照预设的筛选条件对所述用户操作行为数据进行筛选;
基于筛选后的所述用户操作行为数据,确定每类操作行为的操作数据链路。
11.如权利要求1-9任一所述的方法,其特征在于,包括:
获取用户搜索日志;
按照预设的清洗规则对所述搜索日志进行清洗;
从清洗后的所述搜索日志中提取搜索词;
其中,所述用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据。
12.如权利要求11所述的方法,其特征在于,所述清洗规则包括以下至少之一:
去除页面浏览量排序前1%的所述搜索数据;
去除没有用户标识ID的所述搜索数据;
去除无法确定来源的所述搜索数据;
去除预设时间内搜索数据过多的用户所对应的所述搜索数据;
去除黑名单网络协议IP上的所述搜索数据。
13.如权利要求11所述的方法,其特征在于,提取搜索词之后进一步包括:对所述搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除所述搜索词前部和/或后部的空白字符;
将所述搜索词中连续出现的多个空白字符变为一个空白字符;
提出所述搜索词中的不可见字符;
将所述搜索词中的大写字符转换为小写字符;
将所述搜索词中的繁体字转换为简体字。
14.一种基于用户操作行为数据提取同义词的装置,其特征在于,包括:
数据采集模块:基于用户操作行为数据,确定每类操作行为的操作数据链路;所述操作数据链路包括:操作行为的操作对象及其搜索词;
数据处理模块:根据所述操作数据链路,确定第一搜索词在所述每类操作行为的第一操作对象分布、以及第二搜索词在所述每类操作行为的第二操作对象分布;
数据分析模块:依据第一操作对象分布和第二操作对象分布,确定第一搜索词与第二搜索词的相似度;若所述相似度满足预设的条件,确定第一搜索词与第二搜索词为同义词。
15.如权利要求14所述的装置,其特征在于,所述每类操作行为包括:第一操作行为和第二操作行为;
按照如下关系式确定第一搜索词与第二搜索词的相似度:
<mrow>
<msub>
<mi>I</mi>
<mrow>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<msub>
<mi>W</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>A</mi>
<mo>&cap;</mo>
<mi>B</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>A</mi>
<mo>-</mo>
<mi>B</mi>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<mi>A</mi>
<mo>&cap;</mo>
<mi>B</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>+</mo>
<mi>&beta;</mi>
<mo>&times;</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>C</mi>
<mo>&cap;</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>C</mi>
<mo>-</mo>
<mi>D</mi>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<mi>C</mi>
<mo>&cap;</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
式中,W1为第一搜索词,W2为第二搜索词,为第一搜索词与第二搜索词的相似度,A为第一操作对象分布中第一操作行为的操作对象的集合,B为第二操作对象分布中第一操作行为的操作对象的集合,C为第一操作对象分布中第二操作行为的操作对象的集合,D为第二操作对象分布中第二操作行为的操作对象的集合;α为第一操作行为的相似度权重值,β为第二操作行为的相似度权重值。
16.如权利要求15所述的装置,其特征在于,第一操作行为的相似度权重值为0.8,第二操作行为的相似度权重值为0.2。
17.如权利要求15所述的装置,其特征在于,若第一搜索词与第二搜索词的相似度大于0.7,则确定第一搜索词与第二搜索词为同义词。
18.如权利要求14所述的装置,其特征在于,数据分析模块进一步用于:
依据第一操作对象分布和第二操作对象分布,确定第一搜索词和第二搜索词的同义词方向。
19.如权利要求18所述的装置,其特征在于,包括:
根据第一操作对象分布确定第一搜索词在所述每类操作行为的操作对象的数量;基于所述每类操作行为的权重、以及第一搜索词在所述每类操作行为的操作对象的数量,确定第一搜索词的第一得分;
根据第二操作对象分布确定第二搜索词在所述每类操作行为的操作对象的数量;基于所述每类操作行为的权重以及第二搜索词在所述每类操作行为的操作对象的数量,确定第二搜索词的第二得分;
基于第一得分和第二得分确定第一搜索词和第二搜索词的同义词方向。
20.如权利要求19所述的装置,其特征在于,所述每类操作行为包括:第一操作行为和第二操作行为;
按照如下方案确定第一搜索词的第一得分:
ScoreW1=0.7×M1+0.2×N1;
按照如下方案确定第一搜索词的第一得分:
ScoreW2=0.7×M2+0.2×N2;
式中,W1为第一搜索词,ScoreW1为第一搜索词的第一得分;W2为第二搜索词,ScoreW2为第一搜索词的第一得分;M1为第一操作对象分布中第一操作行为的操作对象的数量,N1为第一操作对象分布中第二操作行为的操作对象的数量,M2为第二操作对象分布中第一操作行为的操作对象的数量,N2为第二操作对象分布中第二操作行为的操作对象的数量。
21.如权利要求20所述的装置,其特征在于,
若|ScoreW1-ScoreW2|>φ,第一搜索词和第二搜索词的同义词方向为:单向关系W1→W2;
若|ScoreW1-ScoreW2|≤φ,第一搜索词和第二搜索词的同义词方向为:双向关系
其中,φ为预设的方向阈值;W1→W2表示W2是W1的同义词,但是W1不是W2的同义词;表示W1与W2互为同义词。
22.如权利要求21所述的装置,其特征在于,所述预设的方向阈值为100。
23.如权利要求14-22任一所述的装置,其特征在于,数据采集模块进一步用于:
按照预设的筛选条件对所述用户操作行为数据进行筛选;基于筛选后的所述用户操作行为数据,确定每类操作行为的操作数据链路。
24.如权利要求14-22任一所述的装置,其特征在于,数据采集模块进一步用于:
获取用户搜索日志;
按照预设的清洗规则对所述搜索日志进行清洗;
从清洗后的所述搜索日志中提取搜索词;
其中,所述用户搜索日志是指,用户基于每个搜索词进行的各种操作行为的搜索数据。
25.如权利要求24所述的装置,其特征在于,所述清洗规则包括以下至少之一:
去除页面浏览量排序前1%的所述搜索数据;
去除没有用户标识ID的所述搜索数据;
去除无法确定来源的所述搜索数据;
去除预设时间内搜索数据过多的用户所对应的所述搜索数据;
去除黑名单网络协议IP上的所述搜索数据。
26.如权利要求24所述的装置,其特征在于,数据采集模块进一步用于:提取搜索词之后对搜索词进行归一化处理;
归一化处理的方法包括以下至少之一:
去除所述搜索词前部和/或后部的空白字符;
将所述搜索词中连续出现的多个空白字符变为一个空白字符;
提出所述搜索词中的不可见字符;
将所述搜索词中的大写字符转换为小写字符;
将所述搜索词中的繁体字转换为简体字。
27.一种基于用户操作行为数据提取同义词的终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。
28.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-13中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710785024.6A CN107679030B (zh) | 2017-09-04 | 2017-09-04 | 基于用户操作行为数据提取同义词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710785024.6A CN107679030B (zh) | 2017-09-04 | 2017-09-04 | 基于用户操作行为数据提取同义词的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679030A true CN107679030A (zh) | 2018-02-09 |
CN107679030B CN107679030B (zh) | 2021-08-13 |
Family
ID=61135622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710785024.6A Active CN107679030B (zh) | 2017-09-04 | 2017-09-04 | 基于用户操作行为数据提取同义词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679030B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413737A (zh) * | 2019-07-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720721B1 (en) * | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
CN103279486A (zh) * | 2013-04-24 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 一种提供相关搜索的方法和装置 |
CN103294681A (zh) * | 2012-02-23 | 2013-09-11 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN103838756A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 一种确定推送信息的方法及装置 |
CN104077366A (zh) * | 2014-06-13 | 2014-10-01 | 北京百度网讯科技有限公司 | 一种在网络设备中用于确定特征信息的方法和装置 |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN105045781A (zh) * | 2015-08-27 | 2015-11-11 | 广州神马移动信息科技有限公司 | 查询词相似度计算方法及装置、查询词搜索方法及装置 |
US9235654B1 (en) * | 2012-02-06 | 2016-01-12 | Google Inc. | Query rewrites for generating auto-complete suggestions |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
CN106503251A (zh) * | 2016-11-11 | 2017-03-15 | 广州市万表科技股份有限公司 | 搜索方法和搜索装置 |
-
2017
- 2017-09-04 CN CN201710785024.6A patent/CN107679030B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720721B1 (en) * | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
US9235654B1 (en) * | 2012-02-06 | 2016-01-12 | Google Inc. | Query rewrites for generating auto-complete suggestions |
CN103294681A (zh) * | 2012-02-23 | 2013-09-11 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN103838756A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 一种确定推送信息的方法及装置 |
CN103279486A (zh) * | 2013-04-24 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 一种提供相关搜索的方法和装置 |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN104077366A (zh) * | 2014-06-13 | 2014-10-01 | 北京百度网讯科技有限公司 | 一种在网络设备中用于确定特征信息的方法和装置 |
CN105045781A (zh) * | 2015-08-27 | 2015-11-11 | 广州神马移动信息科技有限公司 | 查询词相似度计算方法及装置、查询词搜索方法及装置 |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
CN106503251A (zh) * | 2016-11-11 | 2017-03-15 | 广州市万表科技股份有限公司 | 搜索方法和搜索装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413737A (zh) * | 2019-07-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN110413737B (zh) * | 2019-07-29 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113326686B (zh) * | 2020-02-28 | 2024-05-10 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107679030B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534A (zh) | 信息处理方法和装置 | |
CN107133221A (zh) | 信息审核方法、装置、计算机可读介质和电子设备 | |
CN107679217B (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
CN109145280A (zh) | 信息推送的方法和装置 | |
CN106874467A (zh) | 用于提供搜索结果的方法和装置 | |
CN107346336A (zh) | 基于人工智能的信息处理方法和装置 | |
CN105677787B (zh) | 信息搜索装置及信息搜索方法 | |
CN108027820A (zh) | 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统 | |
CN107506256A (zh) | 一种崩溃数据监控的方法和装置 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN109992766A (zh) | 提取目标词的方法和装置 | |
CN110516033A (zh) | 一种计算用户偏好的方法和装置 | |
Wang et al. | Game of Missuggestions: Semantic Analysis of Search-Autocomplete Manipulations. | |
CN107329583A (zh) | 一种计算联想词优先级的方法和装置 | |
CN107562941A (zh) | 数据处理方法及其系统 | |
CN107862058A (zh) | 用于生成信息的方法和装置 | |
CN106650610A (zh) | 一种人脸表情数据收集方法及装置 | |
CN107679030A (zh) | 基于用户操作行为数据提取同义词的方法和装置 | |
CN115859273A (zh) | 一种数据库异常访问的检测方法、装置、设备及存储介质 | |
CN106933864A (zh) | 一种搜索引擎系统及其搜索方法 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN108256078B (zh) | 信息获取方法和装置 | |
CN107291923A (zh) | 信息处理方法和装置 | |
CN109995518A (zh) | 密码生成方法和装置 | |
CN110019802A (zh) | 一种文本聚类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |