CN111368117A - 跨语言信息建构与处理方法及跨语言信息系统 - Google Patents

跨语言信息建构与处理方法及跨语言信息系统 Download PDF

Info

Publication number
CN111368117A
CN111368117A CN201910043224.3A CN201910043224A CN111368117A CN 111368117 A CN111368117 A CN 111368117A CN 201910043224 A CN201910043224 A CN 201910043224A CN 111368117 A CN111368117 A CN 111368117A
Authority
CN
China
Prior art keywords
image
object information
target
language
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910043224.3A
Other languages
English (en)
Other versions
CN111368117B (zh
Inventor
萧羽廷
梁哲玮
陈圣轩
徐道婷
蔡雅芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN111368117A publication Critical patent/CN111368117A/zh
Application granted granted Critical
Publication of CN111368117B publication Critical patent/CN111368117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Abstract

一种跨语言信息建构方法,包含以系统的处理器从多个网络平台搜集多个对象信息。以处理器依据这些对象信息建构对应本地语言的第一数据结构与对应目标语言的第二数据结构。以处理器依据第一数据结构内的多个第一对象信息具有的特征数据,对这些第一对象信息进行分群以形成多个本地图像群组。以处理器依据第二数据结构内的多个第二对象信息具有的特征数据,对这些第二对象信息进行分群以形成多个目标图像群组。其中,每个本地图像群组包含多个本地标签群组,且每个目标图像群组包含多个目标标签群组。

Description

跨语言信息建构与处理方法及跨语言信息系统
技术领域
本发明关于一种应用图像及词语特征的跨语言信息建构与处理方法以及跨语言信息系统。
背景技术
互联网的快速发展使人们的生活越来越便利,而网络购物已逐渐地成为全球化之中重要的一环。全球性的发展所要面对的第一个问题为语言差异所造成的隔阂。虽然英文为重要的国际语言,然而并非所有国家都使用英文作为主要沟通语言。当各国的用户在网络平台上看到感兴趣的商品信息、或者是其他具有概念或含义的信息或某些国家的当地流行语等相关内容时,需要通过翻译软件/工具来解释网站的文字内容意思为何,且流行商品的翻译还有其困难度,例如:中文中化妆品中的前导液,韩文翻为引物,英文翻为底漆,与原意相差甚远。此外,各国的社群网站与论坛网站众多,且所展示的商品时常推陈出新。这样的情况会造成时间上的耗费且用户的便利性也会大幅下降。
发明内容
本发明提出一种跨语言信息建构与处理方法以及系统,应用图像与词语特征的分类进行跨语言的数据建构与比对分析,以便利地搜寻到跨语言目标(例如商品)。
依据本发明的一实施例公开一种跨语言信息建构方法,包含以下步骤:以系统的处理器从多个网络平台搜集多个对象信息;以处理器依据这些对象信息而建构具有对应本地语言的第一数据结构与对应目标语言的第二数据结构的数据库;以处理器依据第一数据结构内的多个第一对象信息具有的特征数据,对这些第一对象信息进行分群以形成多个本地图像群组;以处理器依据第二数据结构内的多个第二对象信息具有的特征数据,对这些第二对象信息进行分群以形成多个目标图像群组。其中,每个本地图像群组包含多个本地标签群组,且每个目标图像群组包含多个目标标签群组。
依据本发明的一实施例公开一种跨语言信息处理方法,包含以下步骤:以系统的处理器建构具有对应本地语言的第一数据结构与对应目标语言的第二数据结构的数据库;以系统的操作接口接收目标对象信息,并且提取目标对象信息的特征数据;以系统依据所提取的目标对象信息的特征数据而从对应本地语言的第一数据结构当中选取第一关联图像群;以系统依据第一关联图像群执行跨语言比对任务而从对应目标语言的第二数据结构当中选取第二关联图像群;以系统依据第二关联图像群而输出多个候选对象图像;以系统依据用户指令选取这些候选对象图像当中的一个候选对象图像作为目标对象图像。其中,目标对象信息的特征数据包含关于目标对象信息的图像特征与词语特征。
依据本发明的一实施例公开一种跨语言信息系统,适于多个网络平台,该跨语言信息系统包含数据库,操作接口及处理器。数据库配置以储存对应本地语言的第一数据结构与对应目标语言的该第二数据结构。操作接口配置以接收目标对象信息。处理器连接数据库与操作接口,处理器配置以提取目标对象信息的特征数据,且依据所提取的目标对象信息的特征数据而从第一数据结构当中选取第一关联图像群,处理器还依据第一关联图像群执行跨语言比对任务而从第二数据结构当中选取第二关联图像群,且依据第二关联图像群而使操作接口输出多个候选对象图像,处理器还依据用户指令选取该些候选对象图像当中的候选对象图像作为目标对象图像。其中,该目标对象信息的特征数据包含关于该目标对象信息的一图像特征与一词语特征。
在本发明所提出的跨语言信息建构与处理方法以及系统中,主要是先建构各类对象的图像(image)及标签(hashtag)的数据库,并提取所输入的目标对象的图像特征以及标签(hashtag)特征,以在不同语言的数据库当中进行搜寻分类,从而筛选且排序出多个候选的品项供用户选取,并且可允许用户反馈分数。因此,通过图像及词语标签的分类比对建立高精准度的跨语言搜寻,使用户获知不同语系国家的社群或购物网站上的产品,也可用于供商品设计的进行、进货布局、元素添加决策、广告投放或目标热度的消长状态。
以上的关于本公开内容的说明及以下的实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的权利要求保护范围更进一步的解释。
附图说明
图1是依据本发明的一实施例所绘示的跨语言信息系统的方块示意图。
图2是依据本发明的一实施例所绘示的跨语言信息建构方法的方法流程图。
图3是依据本发明的一实施例所绘示的跨语言对象信息建构的示意图。
图4是依据本发明的一实施例所绘示的跨语言信息处理方法的方法流程图。
【附图标记】
10 跨语言信息系统
101 处理器
103 数据库
105 操作接口
20a~20c 网络平台
DA1 第一数据结构
DA2 第二数据结构
SG1~SG3 本地图像群组
TG1~TG3 目标图像群组
SHG1~SHG9 本地标签群组
THG19~THG27 目标标签群组
SB1~SB27 第一对象信息
TB1~TB27 第二对象信息
具体实施方式
以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施,且根据本说明书所公开的内容、权利要求保护范围及附图,任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点,但非以任何观点限制本发明的范畴。
请一并参照图1与图2,图1是依据本发明的一实施例所绘示的跨语言信息系统的方块示意图。图2是依据本发明的一实施例所绘示的跨语言信息建构方法的方法流程图,此方法可由图1的跨语言信息系统实施。如图1所示,跨语言信息系统10(以下简称「系统10」)包含处理器101、数据库103及操作接口105,其中处理器101连接数据库103及操作接口105。在实际操作上,跨语言信息系统10为一计算机系统可通过网络连接外部的多个网络平台20a~20c,其中处理器101可为中央处理器、微处理器、微控制器等具有运算功能的元件,而网络平台20a~20c可为各国家的不同社群网站、论坛网站等。
如图2所示的跨语言信息建构方法,在步骤S201中,以处理器101从网络平台20a~20c搜集多个对象信息。所述的对象信息为来自不同国家的各类商品信息、例如是化妆品、3C商品、食品、服饰等。请进一步参照图3,图3是依据本发明的一实施例所绘示的跨语言对象信息建构的示意图。在步骤S203中,以处理器101依据这些对象信息建构对应本地语言的第一数据结构DA1与对应目标语言的第二数据结构DA2。具体来说,处理器101先根据语言类别而将所搜集的这些对象信息(如下述的对象信息SB1~SB27、TB1~TB27)进行初步的分群,以形成属于本地语言的对象信息(即第一数据结构DA1)以及属于目标语言的对象信息(即第二数据结构DA2)。在此所述的本地语言例如为用户的母语(例如中文),而目标语言为不同于用户母语的另一种语言(例如韩文),本发明不以此为限。
在步骤S205中,以处理器101依据该第一数据结构DA1内的第一对象信息SB1~SB27具有的特征数据,对这些第一对象信息SB1~SB27进行分群以形成多个本地图像群组,例如:SG1~SG3,本发明不以此为限。本地图像群组SG1~SG3个别包含多个本地标签群组。举例来说,本地图像群组SG1包含本地标签群组SHG1~SHG3,本地图像群组SG2包含本地标签群组SHG4~SHG6,而本地图像群组SG3包含本地标签群组SHG7~SHG9,本发明不以此为限。
在步骤S207中,以处理器101依据第二数据结构DA2内的多个第二对象信息TB1~TB27具有的特征数据,对第二对象信息TB1~TB27进行分群以形成多个目标图像群组TG1~TG3。目标图像群组TG1~TG3个别包含多个目标标签群组。举例来说,目标图像群组TG1包含目标标签群组THG1~THG3,目标图像群组TG2包含目标标签群组THG4~THG6,而目标图像群组TG3包含目标标签群组THG7~THG9。
于一实施例中,第一对象信息SB1~SB27具有的特征数据包含多个第一图像数据及多个第一标签数据,且第二对象信息TB1~TB27具有的特征数据包含多个第二图像数据及多个第二标签数据。详言之,每个第一与第二对象信息的特征数据包含对应的图像数据/标签数据。所述的图像数据包含对象信息的形状、颜色、轮廓等特征信息,而标签数据包含形容对象信息含义的文字信息。在在实际操作上,处理器101可通过卷积神经网络(Convolutional Neural Network,CNN)的技术提取对象信息的特征数据(例如图像特征),处理器101再进一步地执行基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)以进行上述的图像/标签分群,但本发明不以此为限。处理器101通过提取前述的图像/词语特征,便可以建立图3所示的跨语言对象信息建构的数据结构内的多个图像群组(含标签群组),并将其储存于数据库103中以供用户进行目标对象信息的比对搜寻。
于一实施例中,以处理器101依据第一数据结构DA1内的第一对象信息SB1~SB27具有的特征数据,对第一对象信息SB1~SB27进行分群以形成本地图像群组SG1~SG3包含:以处理器101依据这些第一图像数据对第一对象信息SB1~SB27执行一图像分群任务,以形成本地图像群组SG1~SG3。而每个本地图像群组内的这些第一对象信息具有对应的第一图像特征。详细来说,处理器101会将具有相同或相似第一图像特征的第一对象信息分群在同一本地图像群组。如图3所示,由于第一对象信息SB1~SB9具有相同或相似的第一图像特征,因此将其归纳至本地图像群组SG1。同样地,第一对象信息SB10~SB18具有相同或相似的第一图像特征,因此将其归纳至本地图像群组SG2。而第一对象信息SB19~SB27具有相同或相似的第一图像特征,因此将其归纳至本地图像群组SG3。
另一方面,于一实施例中,以处理器101依据第二数据结构DA2内的第二对象信息TB1~TB27具有的特征数据,对第二对象信息TB1~TB27进行分群以形成这些目标图像群组包含:以处理器101依据这些第二图像数据对这些第二对象信息TB1~TB27执行一图像分群任务,以形成这些目标图像群组TG1~TG3。而每个目标图像群组内的这些第二对象信息具有对应的第二图像特征。详细来说,处理器101会将具有相同或相似第二图像特征的第二对象信息分群在同一目标图像群组。如图3所示,由于第二对象信息TB1~TB9具有相同或相似的第二图像特征,因此将其归纳至本地图像群组TG1。同样地,第二对象信息TB10~TB18具有相同或相似的第二图像特征,因此将其归纳至本地图像群组TG2。而第二对象信息TB19~TB27具有相同或相似的第二图像特征,因此将其归纳至本地图像群组TG3。
于一实施例中,本发明的跨语言信息建构方法还包含以处理器101依据第一对象信息SB1~SB27具有的第一标签数据对每个本地图像群组内的第一对象信息执行一标签分群任务,以形成本地标签群组SHG1~SHG9,其中每个本地标签群组内的第一对象信息具有对应的第一标签特征。具体来说,在此标签分群任务中,处理器101会将每个本地图像群组内的具有对应的第一标签数据的这些第一对象信息分群在同一本地标签群组。即,在同一个本地标签群组内的第一对象信息所具有的第一标签数据包含相同或类似的词语含义。以图3实施例的本地图像群组SG1来说,第一对象信息SB1~SB3具有相对应的第一标签数据,因此处理器101便将第一对象信息SB1~SB3分群至同一本地标签群组SHG1。同样地,第一对象信息SB4~SB6具有相对应的第一标签数据,因此处理器101便将第一对象信息SB4~SB6分群至同一本地标签群组SHG2。而第一对象信息SB7~SB9具有相对应的第一标签数据,因此处理器101便将第一对象信息SB7~SB9分群至同一本地标签群组SHG3。同样的原理可应用在本地图像群组SG2与本地图像群组SG3。
另一方面,于一实施例中,本发明的跨语言信息建构方法还包含以处理器101依据第二对象信息TB1~TB27具有的第二标签数据对每个目标图像群组内的第二对象信息执行一标签分群任务,以形成这些目标标签群组,其中每个目标标签群组内的第二对象信息具有对应的第二标签特征。具体来说,在此标签分群任务中,处理器101会将每个目标图像群组内的具有对应的第二标签数据的这些第二对象信息分群在同一目标标签群组。以图3实施例的目标图像群组TG1来说,第二对象信息TB1~TB3具有相对应的第二标签数据,因此处理器101便将第二对象信息TB1~TB3分群至同一目标标签群组THG1。同样地,第二对象信息TB4~TB6具有相对应的第二标签数据,因此处理器101便将第二对象信息TB4~TB6分群至同一目标标签群组THG2。而第二对象信息TB7~TB9具有相对应的第二标签数据,因此处理器101便将第二对象信息TB7~TB9分群至同一目标标签群组THG3。同样的原理应用在目标图像群组TG2与目标图像群组TG3。
综合前述实施例,本发明的系统会先进行数据库的建构,即系统先将各种类的对象信息依据语言类别进行初步分群以构成对应本地语言与目标语言的不同数据结构。接着,针对各个数据结构内的对象信息分别执行图像分群及标签分群任务,以基于图像/标签特征而将众多的对象信息分门别类,形成不同属性的数据群组用于供后续用户进行目标对象信息的比对分析。关于如何使用建构完成的数据库进行特定目标对象的相关比对及搜寻将于后续段落有详细描述。
请一并参照图1、图3及图4,图4是依据本发明的一实施例所绘示的跨语言信息处理方法的方法流程图,此方法同样可由图1的跨语言信息系统实施。如图4所示,于步骤S301中,以系统10的处理器101建构具有对应本地语言(例如中文)的第一数据结构DA1与对应目标语言(例如韩文)的第二数据结构DA2,并将其储存于数据库103。在图4实施例的跨语言信息处理方法中,还包含第一数据结构DA1与第二数据结构DA2内部的第一对象数据及第二对象数据的图像/标签分群任务的执行,以形成如图3所示的本地图像/标签群组以及目标图像/标签群组。由于上述的分群细部原理与步骤流程已于前述实施例中有详细介绍,因此于此不再赘述。以下段落将着重基于所建构的数据库的特定目标对象的相关比对及搜寻。
于步骤S303中,以系统10的操作接口105接收一个目标对象信息,并且提取此目标对象信息的特征数据。就实际操作来说,用户可在操作接口105中输入所欲搜寻的目标对象信息(例如图片/文字),其中所述的目标对象信息的特征数据包含关于此目标对象信息的图像特征与词语特征。举例来说,假设目标对象信息为某一种瓶装沐浴乳,则系统10便可以提取此目标对象信息(沐浴乳)的图像特征,例如是瓶罐外形、内容物颜色等,此外还可提取目标对象信息(沐浴乳)的词语特征,例如是#沐浴乳、#乳状、#泡泡绵密、#保湿、#香味等具有关于此目标对象含义的文字,本发明不以此为限。
于步骤S305中,以系统10依据所提取的目标对象信息的特征数据而从对应本地语言的第一数据结构DA当中选取第一关联图像群。于步骤S307中,以系统10依据第一关联图像群执行一跨语言比对任务而从对应目标语言的第二数据结构DA当中选取第二关联图像群。
于一实施例中,以系统10依据所提取的目标对象信息的特征数据而从本地语言的第一数据结构DA当中选取第一关联图像群包含:以系统10从第一数据结构DA1内的本地图像群组SG1~SG3当中选取一个本地图像群组作为第一关联图像群,其中所选取的本地图像群组对应的第一图像特征与目标对象信息的图像特征相符合。详言之,系统10的处理器101根据目标对象信息的图像特征而从本地图像群组SG1~SG3中查找对应此目标对象信息的图像特征的本地图像群组。
举例来说,假设本地图像群组SG1~SG3分别具有的第一图像特征例如是瓶罐外形、3C装置外形、食品太空包外形,则由于目标对象信息(沐浴乳)的图像特征是为瓶罐外形,因此系统10便可选取本地图像群组SG1作为此第一关联图像群。更详细来说,在本发明的跨语言信息处理方法中,除了图像特征比对之外,还搭配词语特征的应用,因此系统10可以进一步地根据目标对象信息的词语特征而可获知此第一关联图像群内的哪个第一本地标签群组内的对象信息是对应目标对象信息。如此一来,系统10得以更精准地搜寻到正确的第一关联图像群,而不会因图像比对的误差而导致误选不正确的本地图像群组作为此第一关联图像群。上述范例仅用于举例说明,本发明不以此为限。
于一实施例中,所述的跨语言比对程序包含以系统10依据作为第一关联图像群的本地图像群组(例如前述范例的本地图像群组SG1)的第一图像特征而对目标语言的第二数据结构DA2内的目标图像群组TG1~TG3进行比对,以从目标图像群组TG1~TG3当中选取出一个目标图像群组作为第二关联图像群,其中所选取的目标图像群组对应的第二图像特征与所选取的本地图像群组对应的第一图像特征相符合。更具体来说,假设目标图像群组TG1~TG3具有的第二图像特征分别为桶装外形、瓶罐外形、袋装外形,则由于目标图像群组TG2与第一关联图像群具有对应的图像特征,因此系统10的处理器101选取目标图像群组TG2作为第二关联图像群。
于步骤S309中,以系统10依据第二关联图像群而输出多个候选对象图像。所述的多个候选对象图像即为第二关联图像群中的第二对象信息。以前述范例来说,系统10的操作界面105输出作为第二关联图像群的目标图像群组TG2内的第二对象信息TB4~TB6。
于步骤S311中,以系统10依据用户指令选取这些候选对象图像当中的候选对象图像作为目标对象图像。详言之,用户可通过操作界面105下达一用户指令而从第二对象信息TB4~TB6挑选最为贴近目标对象信息的一个第二对象信息。于实作上,当系统10的操作接口105输出所选取的第二对象信息时,可一并显示此第二对象信息的词语特特征,即以目标语言(例如韩文)呈现的词语含义。由于目标对象信息的词语含义是以用户的本地语言(例如中文)呈现,因此当系统10输出带有目标语言(例如韩文)的词语含义的第二对象信息时,用户可了解到此目标语言的词语含义与本地语言的词语含义具有相似的意义。
于一实施例中,所述的跨语言信息处理方法还包含在步骤S313中,以系统10的操作接口105接收用户回馈评分,此用户回馈评分关联于所选取的候选对象图像。以实际范例来说,当用户认为第二对象信息TB5为最贴近目标对象信息,便可由操作界面105下达一个用户指令以选取第二对象信息TB5作为最终的目标对象图像,并且针对此第二对象信息TB5而反馈一用户回馈评分到系统10。于一实施例中,所述的跨语言信息处理方法还包含在步骤S315中,以系统10依据用户回馈评分调整所输出的候选对象图像的排序。
更具体来说,当完成比对任务后,系统10的处理器101会以一初始排序在操作接口105中输出候选对象图像,例如在操控接口中依据各个第二对象信息的权重而依序输出第二对象信息TB4、TB5、TB6。当用户选取第二对象信息TB5作为最终的目标对象图像时,系统10的处理器101会一并接收到用户回馈评分。系统10的处理器101进一步将此用户回馈评分加总至第二对象信息TB5的原有的权重。此时,第二对象信息TB5的权重将会提升。当用户再次输入相同或类似的目标对象信息时,系统10的处理器101会将此用户回馈评分列入考虑而适时地调整输出的排序,例如依序输出第二对象信息TB5、TB4、TB6。
综上所述,在本发明所提出的跨语言信息建构与处理方法,主要是通过特定功能的计算机系统(跨语言信息系统10),使用特定的对象信息归纳方式,即先建构各类对象的图像(image)及标签(hashtag)的数据库,并提取所输入的目标对象的图像特征以及标签(hashtag)特征,搭配特定的比对方式以在不同语言的数据库当中进行搜寻,从而筛选且排序出多个候选的品项供用户选取,并且可允许用户反馈分数到系统。因此,通过图像及词语标签的分类比对建立高精准度的跨语言搜寻,使用户获知不同语系国家的目标信息,例如社群或购物网站上的产品信息。也就是说,通过本发明可在不同语言系统中呈现同一个目标信息,如此一来,可克服不同语言之间翻译的困难度。

Claims (24)

1.一种跨语言信息建构方法,包含:
以一系统的一处理器从多个网络平台搜集多个对象信息;
以该处理器依据这些对象信息建构对应一本地语言的一第一数据结构与对应一目标语言的一第二数据结构;
以该处理器依据该第一数据结构内的多个第一对象信息具有的特征数据,对这些第一对象信息进行分群以形成多个本地图像群组;以及
以该处理器依据该第二数据结构内的多个第二对象信息具有的特征数据,对这些第二对象信息进行分群以形成多个目标图像群组;
其中,每一该本地图像群组包含多个本地标签群组,且每一该目标图像群组包含多个目标标签群组。
2.如权利要求1所述的跨语言信息建构方法,其中这些第一对象信息具有的特征数据包含多个第一图像数据及多个第一标签数据,且这些第二对象信息具有的特征数据包含多个第二图像数据及多个第二标签数据。
3.如权利要求2所述的跨语言信息建构方法,其中以该处理器依据该第一数据结构内的这些第一对象信息具有的特征数据,对这些第一对象信息进行分群以形成这些本地图像群组包含:
以该处理器依据这些第一图像数据对这些第一对象信息执行一图像分群任务,以形成这些本地图像群组,其中每一该本地图像群组内的这些第一对象信息具有对应的第一图像特征。
4.如权利要求2所述的跨语言信息建构方法,还包含:
以该处理器依据这些第一标签数据对每一该本地图像群组内的这些第一对象信息执行一标签分群任务,以形成这些本地标签群组,其中每一该本地标签群组内的这些第一对象信息具有对应的该第一标签特征。
5.如权利要求2所述的跨语言信息建构方法,其中以该处理器依据该第二数据结构内的这些第二对象信息具有的特征数据,对这些第二对象信息进行分群以形成这些目标图像群组包含:
以该处理器依据这些第二图像数据对这些第二对象信息执行一图像分群任务,以形成这些目标图像群组,其中每一该目标图像群组内的这些第二对象信息具有对应的第二图像特征。
6.如权利要求5所述的跨语言信息建构方法,还包含:
以该处理器依据这些第二标签数据对每一该目标图像群组内的这些第二对象信息执行一标签分群任务,以形成这些目标标签群组,其中每一该目标标签群组内的这些第二对象信息具有对应的该第二标签特征。
7.一种跨语言信息处理方法,包含:
以一系统的一处理器建构对应一本地语言的一第一数据结构与对应一目标语言的一第二数据结构;
以该系统的一操作接口接收一目标对象信息,并且以该处理器提取该目标对象信息的特征数据;
以该系统依据所提取的该目标对象信息的特征数据而从对应该本地语言的该第一数据结构当中选取一第一关联图像群;
以该系统依据该第一关联图像群执行一跨语言比对任务而从对应该目标语言的该第二数据结构当中选取一第二关联图像群;
以该系统依据该第二关联图像群而输出多个候选对象图像;以及
以该系统依据一用户指令选取这些候选对象图像当中的一候选对象图像作为一目标对象图像;
其中,该目标对象信息的特征数据包含关于该目标对象信息的一图像特征与一词语特征。
8.如权利要求7所述的跨语言信息处理方法,其中以该系统依据所提取的该目标对象信息的特征数据而从该本地语言的该第一数据结构当中选取该第一关联图像群包含:
以该系统从该第一数据结构内的多个本地图像群组当中选取一个本地图像群组作为该第一关联图像群,其中所选取的该本地图像群组对应的第一图像特征与该目标对象信息的该图像特征相符合。
9.如权利要求8所述的跨语言信息处理方法,其中该跨语言比对任务包含:
以该系统依据作为该第一关联图像群的该本地图像群组的第一图像特征而对该目标语言的该第二数据结构内的多个目标图像群组进行比对,以从这些目标图像群组当中选取出一个目标图像群组作为该第二关联图像群,其中所选取的该目标图像群组对应的第二图像特征与所选取的该本地图像群组对应的第一图像特征相符合。
10.如权利要求8所述的跨语言信息处理方法,还包含:
以该处理器依据该第一数据结构内的多个第一对象信息所具有的多个第一图像数据而对这些第一对象信息执行一图像分群任务,以形成这些本地图像群组,其中每一该本地图像群组内的这些第一对象信息具有对应的第一图像特征。
11.如权利要求9所述的跨语言信息处理方法,还包含:
以该处理器依据该第二数据结构内的多个第二对象信息所具有的多个第二图像数据而对这些第二对象信息执行一图像分群任务,以形成这些目标图像群组,其中每一该目标图像群组内的这些第二对象信息具有对应的第二图像特征。
12.如权利要求10所述的跨语言信息处理方法,还包含:
以该处理器依据每一该本地图像群组内的这些第一对象信息具有的多个第一标签特征执行一标签分群任务,以形成多个本地标签群组,其中每一该本地标签群组内的这些第一对象信息具有对应的该第一标签特征。
13.如权利要求11所述的跨语言信息处理方法,还包含:
以该处理器依据每一该目标图像群组内的这些第二对象信息具有的多个第二标签特征执行一标签分群任务,以形成多个目标标签群组,其中每一该目标标签群组内的这些第二对象信息具有对应的该第二标签特征。
14.如权利要求7所述的跨语言信息处理方法,还包含以该系统接收一用户回馈评分,该用户回馈评分关联于所选取的该候选对象图像。
15.如权利要求14所述的跨语言信息处理方法,还包含以该系统依据该用户回馈评分调整所输出的这些候选对象图像的排序。
16.一种跨语言信息系统,适于多个网络平台,该跨语言信息系统包含:
一数据库,配置以储存对应一本地语言的一第一数据结构与对应一目标语言的一第二数据结构;
一操作接口,配置以接收一目标对象信息;
一处理器,连接该数据库与该操作接口,该处理器配置以提取该目标对象信息的特征数据,且依据所提取的该目标对象信息的特征数据而从该第一数据结构当中选取一第一关联图像群,该处理器还依据该第一关联图像群执行一跨语言比对任务而从该第二数据结构当中选取一第二关联图像群,且依据该第二关联图像群而使该操作接口输出多个候选对象图像,该处理器还依据一用户指令选取这些候选对象图像当中的一候选对象图像作为一目标对象图像;
其中,该目标对象信息的特征数据包含关于该目标对象信息的一图像特征与一词语特征。
17.如权利要求16所述的跨语言信息系统,其中该第一关联图像群为该处理器从该第一数据结构内的多个本地图像群组当中所选取的一个本地图像群组,所选取的该本地图像群组对应的第一图像特征与该目标对象信息的该图像特征相符合。
18.如权利要求17所述的跨语言信息系统,其中该跨语言比对任务包含:该处理器依据作为该第一关联图像群的该本地图像群组的第一图像特征而对该目标语言的该第二数据结构内的多个目标图像群组进行比对,以从这些目标图像群组当中选取出一个目标图像群组作为该第二关联图像群,其中所选取的该目标图像群组对应的第二图像特征与所选取的该本地图像群组对应的第一图像特征相符合。
19.如权利要求17所述的跨语言信息系统,其中这些本地图像群组为该处理器依据该第一数据结构内的多个第一对象信息所具有的多个第一图像数据对这些第一对象信息执行一图像分群任务所形成,每一该本地图像群组内的这些第一对象信息具有对应的第一图像特征。
20.如权利要求18所述的跨语言信息系统,其中这些目标图像群组为该处理器依据该第二数据结构内的多个第二对象信息所具有的多个第二图像数据对这些第二对象信息执行一图像分群任务所形成,每一该目标图像群组内的这些第二对象信息具有对应的第二图像特征。
21.如权利要求20所述的跨语言信息系统,其中该处理器还配置以依据每一该目标图像群组内的这些第二对象信息具有的多个第二标签特征执行一标签分群任务,以形成多个目标标签群组,其中每一该目标标签群组内的这些第二对象信息具有对应的该第二标签特征。
22.如权利要求19所述的跨语言信息系统,其中该处理器还配置以依据每一该本地图像群组内的这些第一对象信息具有的多个第一标签特征执行一标签分群任务,以形成多个本地标签群组,其中每一该本地标签群组内的这些第一对象信息具有对应的该第一标签特征。
23.如权利要求16所述的跨语言信息系统,其中该操作接口还配置以接收一用户回馈评分,该用户回馈评分关联于所选取的该候选对象图像。
24.如权利要求23所述的跨语言信息系统,其中该处理器还配置以依据该用户回馈评分调整所输出的这些候选对象图像的排序。
CN201910043224.3A 2018-12-26 2019-01-17 跨语言信息建构与处理方法及跨语言信息系统 Active CN111368117B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16/232,438 2018-12-26
US16/232,438 US10956487B2 (en) 2018-12-26 2018-12-26 Method for establishing and processing cross-language information and cross-language information system
TW108100366A TWI686706B (zh) 2018-12-26 2019-01-04 跨語言資訊建構與處理方法及跨語言資訊系統
TW108100366 2019-01-04

Publications (2)

Publication Number Publication Date
CN111368117A true CN111368117A (zh) 2020-07-03
CN111368117B CN111368117B (zh) 2023-05-30

Family

ID=70766890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910043224.3A Active CN111368117B (zh) 2018-12-26 2019-01-17 跨语言信息建构与处理方法及跨语言信息系统

Country Status (3)

Country Link
US (1) US10956487B2 (zh)
CN (1) CN111368117B (zh)
TW (1) TWI686706B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842165B2 (en) * 2019-08-28 2023-12-12 Adobe Inc. Context-based image tag translation

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统
JP2012243130A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法、及びプログラム
CN103678460A (zh) * 2012-09-13 2014-03-26 国际商业机器公司 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
CN104537066A (zh) * 2014-12-30 2015-04-22 郑州市中业科技有限公司 基于多语言翻译的近义词关联方法
US20150172396A1 (en) * 2013-12-16 2015-06-18 Co Everywhere, Inc. Systems and methods for enriching geographically delineated content
CN107679128A (zh) * 2017-09-21 2018-02-09 北京金山安全软件有限公司 一种信息展示方法、装置、电子设备及存储介质
CN108304412A (zh) * 2017-01-13 2018-07-20 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108431809A (zh) * 2015-12-21 2018-08-21 电子湾有限公司 使用语义含义向量的跨语言搜索
US20180260385A1 (en) * 2017-03-11 2018-09-13 International Business Machines Corporation Symbol management

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003280003A1 (en) 2002-10-21 2004-07-09 Leslie Spero System and method for capture, storage and processing of receipts and related data
JP5098253B2 (ja) 2006-08-25 2012-12-12 コニカミノルタエムジー株式会社 データベースシステム、プログラム、及びレポート検索方法
CN101329677A (zh) 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎
IL199762A0 (en) * 2008-07-08 2010-04-15 Dan Atsmon Object search navigation method and system
US8582802B2 (en) 2009-10-09 2013-11-12 Edgenet, Inc. Automatic method to generate product attributes based solely on product images
CN103310343A (zh) 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
US9449070B2 (en) 2012-04-26 2016-09-20 Offerpop Corporation Category manager for social network content
CN103577989B (zh) 2012-07-30 2017-11-14 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
CN103678335B (zh) 2012-09-05 2017-12-08 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
GB201322037D0 (en) 2013-12-12 2014-01-29 Touchtype Ltd System and method for inputting images/labels into electronic devices
EP2959405A4 (en) 2013-02-19 2016-10-12 Google Inc RESEARCH BASED ON TREATMENT OF NATURAL LANGUAGE
JP6188400B2 (ja) * 2013-04-26 2017-08-30 オリンパス株式会社 画像処理装置、プログラム及び画像処理方法
US10043101B2 (en) 2014-11-07 2018-08-07 Adobe Systems Incorporated Local feature representation for image recognition
TWI526953B (zh) 2015-03-25 2016-03-21 美和學校財團法人美和科技大學 人臉辨識方法及系統
CN104765842B (zh) 2015-04-15 2018-05-01 中山大学 一种最佳学习方案推送方法及系统
US11006095B2 (en) * 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
CN106682012B (zh) 2015-11-06 2020-12-01 阿里巴巴集团控股有限公司 商品对象信息搜索方法及装置
US10546015B2 (en) * 2015-12-01 2020-01-28 Facebook, Inc. Determining and utilizing contextual meaning of digital standardized image characters
TWI573031B (zh) 2015-12-04 2017-03-01 英業達股份有限公司 資料分類及搜尋方法
CN105677913B (zh) 2016-02-29 2019-04-26 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105808931B (zh) 2016-03-03 2019-05-07 北京大学深圳研究生院 一种基于知识图谱的针灸决策支持方法及装置
CN105808768B (zh) 2016-03-19 2019-03-26 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN107273106B (zh) 2016-04-08 2021-07-06 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN106021281A (zh) 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
US10423652B2 (en) 2016-08-08 2019-09-24 Baidu Usa Llc Knowledge graph entity reconciler
US20180052842A1 (en) 2016-08-16 2018-02-22 Ebay Inc. Intelligent online personal assistant with natural language understanding
TWI617930B (zh) 2016-09-23 2018-03-11 李雨暹 空間物件搜尋排序方法、系統與電腦可讀取儲存裝置
US20180089722A1 (en) * 2016-09-26 2018-03-29 Justin Schulte Social media advertising system and method
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US11256741B2 (en) 2016-10-28 2022-02-22 Vertex Capital Llc Video tagging system and method
US10684738B1 (en) * 2016-11-01 2020-06-16 Target Brands, Inc. Social retail platform and system with graphical user interfaces for presenting multiple content types
CN106492484A (zh) 2016-12-30 2017-03-15 佛山市米原信息系统科技有限公司 一种多功能益智积木拼盘
CN108763580A (zh) 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统
JP2012243130A (ja) * 2011-05-20 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法、及びプログラム
CN103678460A (zh) * 2012-09-13 2014-03-26 国际商业机器公司 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
US20150172396A1 (en) * 2013-12-16 2015-06-18 Co Everywhere, Inc. Systems and methods for enriching geographically delineated content
CN104537066A (zh) * 2014-12-30 2015-04-22 郑州市中业科技有限公司 基于多语言翻译的近义词关联方法
CN108431809A (zh) * 2015-12-21 2018-08-21 电子湾有限公司 使用语义含义向量的跨语言搜索
CN108304412A (zh) * 2017-01-13 2018-07-20 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
US20180260385A1 (en) * 2017-03-11 2018-09-13 International Business Machines Corporation Symbol management
CN107679128A (zh) * 2017-09-21 2018-02-09 北京金山安全软件有限公司 一种信息展示方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰慧红: "跨语言查询扩展技术研究进展", 电子技术与软件工程 *

Also Published As

Publication number Publication date
US10956487B2 (en) 2021-03-23
TW202024949A (zh) 2020-07-01
TWI686706B (zh) 2020-03-01
CN111368117B (zh) 2023-05-30
US20200210471A1 (en) 2020-07-02

Similar Documents

Publication Publication Date Title
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
US9971763B2 (en) Named entity recognition
CN111507104B (zh) 建立标签标注模型的方法、装置、电子设备和可读存储介质
WO2019194986A1 (en) Automated extraction of product attributes from images
CN111444372B (zh) 用于图像处理的系统和方法
CN114416999A (zh) 图像和文本数据层级分类器
CN110427563A (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN113704507B (zh) 数据处理方法、计算机设备以及可读存储介质
CN111598596A (zh) 数据处理方法、装置、电子设备及存储介质
Korpusik et al. Data collection and language understanding of food descriptions
CN111368117B (zh) 跨语言信息建构与处理方法及跨语言信息系统
KR20200140588A (ko) 이미지 기반 제품 매매 서비스 제공 시스템 및 방법
Guadarrama et al. Understanding object descriptions in robotics by open-vocabulary object retrieval and detection
CN112784156A (zh) 基于意图识别的搜索反馈方法、系统、设备及存储介质
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN111814028A (zh) 一种信息搜索方法及装置
US20210256588A1 (en) System, method, and computer program product for determining compatibility between items in images
CN110413823A (zh) 服装图片推送方法及相关装置
CN110083687A (zh) 一种信息转换方法、设备及存储介质
US20230343326A1 (en) Systems and methods to identify products from verbal utterances
CN111597296A (zh) 商品数据的处理方法、装置和系统
CN112818088B (zh) 商品搜索数据处理方法、装置、设备及存储介质
CN111353292B (zh) 针对用户操作指令的解析方法及装置
Nugraha et al. Chatbot-Based Movie Recommender System Using POS Tagging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant