CN113495950A - 自然语言处理装置和程序 - Google Patents

自然语言处理装置和程序 Download PDF

Info

Publication number
CN113495950A
CN113495950A CN202010206312.3A CN202010206312A CN113495950A CN 113495950 A CN113495950 A CN 113495950A CN 202010206312 A CN202010206312 A CN 202010206312A CN 113495950 A CN113495950 A CN 113495950A
Authority
CN
China
Prior art keywords
word
vector
sentence
industry
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010206312.3A
Other languages
English (en)
Inventor
牧纯一郎
飞田敏
渡边修一
堀洋祐
永岛淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Publication of CN113495950A publication Critical patent/CN113495950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明求出总括地表示与分类词相关联的句子的意旨的分类词的分词向量。自然语言处理装置包括:第1计算部,其对于管理与分类词相关联的多个句子的数据库,计算所述多个句子中所含的单词的分词向量;第2计算部,其基于各句子中所含的单词的分词向量,计算该句子的分词向量;和第3计算部,其基于与相同分类词相关联的各句子的分词向量,计算该分类词的分词向量。

Description

自然语言处理装置和程序
技术领域
本发明涉及自然语言的分词表达的技术。
背景技术
关于管理句子的数据库,有时标注标签对句子进行分类。标签通用的句子是属于相同分类的内容,通过将标签作为关键字提取句子能够收集相似的句子。即,标签是句子的分类词,例如作为检索条件起作用。
另外,在自然语言处理中,用高维的实数向量表达单词、短语和句子的意思的分词表达的技术已经普及。将该实数向量称为分词向量。如果使用分词向量,则能够进行自然语言的意思的对比。
现有技术文献
专利文献
专利文献1:日本特开2019-149161号公报
专利文献2:日本特开2018-073429号公报
发明内容
发明要解决的课题
如果标签也作为分词向量表达,则能够在数学上对比标签彼此的语义关系和标签与句子的语义关系等。
但是,标签名用于表示分类,如分类的句子的背景、特性等,只不过是表示句子的意旨的一方面而已。因此,即使使用作为标签名的单词或语句的分词向量作为标签的分词向量,也不会总括地表示与标签相关联的句子的意旨。
本发明是基于上述问题认知而完成的发明,其主要目的在于求出总括地表示与分类词相关联的句子的意旨的分类词的分词向量。
用于解决课题的方法
本发明的某个方式的自然语言处理装置,其特征在于,包括:第1计算部,其对于管理与分类词相关联的多个句子的数据库,计算所述多个句子中所含的单词的分词向量;第2计算部,其基于各句子中所含的单词的分词向量,计算该句子的分词向量;和第3计算部,其基于与相同分类词相关联的各句子的分词向量,计算该分类词的分词向量。
发明的效果
根据本发明,能够求出总括地表示与分类词相关联的句子的意旨的分类词的分词向量。
附图说明
图1是本实施方式的检索系统中的网络结构图。
图2是企业表的数据结构图。
图3是事业特性词表的数据结构图。
图4是行业种类表的数据结构图。
图5是单词表的数据结构图。
图6是企业向量存储部的数据结构图。
图7是事业特性词向量存储部的数据结构图。
图8是行业种类向量存储部的数据结构图。
图9是检索查询的受理画面图。
图10是检索结果画面中所含的企业信息框的图。
图11是检索查询的受理画面图。
图12是检索查询的受理画面图。
图13是相似词列表的数据结构图。
图14是事业特性词列表的数据结构图。
图15是行业种类列表的数据结构图。
图16是检索结果画面中所含的企业信息框的图。
图17是检索结果画面中所含的企业信息框的图。
图18是服务器的功能框图。
图19是数据保存部的功能框图。
图20是表示准备阶段处理的过程的流程图。
图21是表示分词表达模型生成处理的过程的流程图。
图22是表示企业向量计算处理的过程的流程图。
图23是表示事业特性词向量计算处理的过程的流程图。图24是表示行业种类向量计算处理的过程的流程图。
图25是表示利用阶段处理的过程的流程图。
图26是表示列表生成处理的过程的流程图。
图27是表示画面生成处理的过程的流程图。
附图标记说明
100 服务器
110 数据保存部
120 企业数据库
122 企业表保存部
124 事业特性词表保存部
126 行业种类表保存部
130 分词表达模型保存部
132 单词表保存部
134 企业向量存储部
136 事业特性词向量存储部
138 行业种类向量存储部
140 关联语句存储部
142 相似词列表存储部
144 事业特性词列表存储部
146 行业种类列表存储部
150 数据处理部
152 模型生成部
154 企业向量计算部
156 事业特性词向量计算部
158 行业种类向量计算部
160 画面数据生成部
162 检索部
170 接收部
172 检索查询接收部
174 滑块值接收部
180 发送部
182 画面数据发送部
190 通信部
200 用户终端
300 输入区域
302 滑块
304 显示区域
306 显示区域
308 显示区域
320 企业信息框
324 显示区域
326 显示区域
328 显示区域
330 显示区域
具体实施方式
图1是本实施方式的检索系统网络结构图。
本实施方式的检索系统包含服务器100和用户终端200。用户终端200经由网络(例如,互联网、LAN或专线等)与服务器100连接。服务器100具有企业数据库120。
在用户检索由企业数据库120管理的企业信息的情况下,在用户终端200中通过用户操作输入检索查询,并将该检索查询发送到服务器100。然后,将基于检索查询提取出的企业信息返回到用户终端200,在用户终端200上显示。
在本实施方式中,使用分词表达模型提高检索功能。在分词表达模型中,用高维的实数向量表示单词。分词表达模型通过基于被称为语料库(corpus)的数据库的学习处理获得,该语料库是将自然语言的文章结构化并大规模集聚而成的。该技术在自然语言处理的领域广为人知。有时将作为分词表达模型得到的单词的实数向量称为分词向量或单词向量。以下,称为单词向量。
作为代表例,已知有Word2vec。在Word2vec中,在“在附近出现的单词相似的单词彼此意思相近”的前提下,解决搜索在句子中出现于对象单词的附近(例如前后5个单词或前后10个单词)的另外的单词的问题。在此前后5个单词是从对象单词的5个之前的单词到1个之前的单词和从对象单词的1个之后的单词到5个之后的单词的合计10个单词的范围。作为学习单元,使用神经网络。在使用大的语料库的学习的过程中,在附近出现的单词相似的单词彼此的单词向量,以显示相似的值的方式变化。
在分词表达模型中,不仅用单词向量表示单词彼此的相似关系,还能够表示句集的相似关系。在包含多个单词的句集中,从这些单词的单词向量生成该句集的句子向量。在某个句集的句子向量与其他的句集的句子向量近似的情况下,表示这些句集内容相近。在该例中,分词表达模型保存于分词表达模型保存部130中。
在本实施方式中,基于附属于企业信息的事业内容句集的标签的标签向量选出与检索查询关联强的标签。然后,使用表示标签的字符串作为补充检索查询的条件。
作为粗略的次序,分为准备阶段和利用阶段。在准备阶段,使用现有技术生成基于企业数据库120的分词表达模型。即,生成处于企业数据库120的单词的单词向量。接着,对于在企业数据库120中使用的标签生成标签向量,添加到分词表达模型中。由此,将分词表达模型扩展至标签的表达。
在利用阶段,接受具体的检索查询,参照分词表达模型选出与检索查询关联的标签。然后,利用该标签的字符表达作为检索条件。此时,选出标签的字符表达作为关联语句,存储于关联语句存储部140中。具体的处理以下详细描述。
图2是企业表的数据结构图。
企业表在企业数据库120中被管理。企业表具有每个企业的记录。在企业表的记录中设定有企业ID、企业名、事业内容句集、事业特性词ID、主行业种类ID和副行业种类ID等。在事业内容句集的字段中,可以仅设定一个句子,也可以设定多个句子。事业特性词和行业种类相当于标签。在该例子中,对于一个企业,能够设定至多2个行业种类的标签。在仅设定一个行业种类的标签的情况下,使用主行业种类。在准备阶段前准备企业表。
图3是事业特性词表的数据结构图。
事业特性词表在企业数据库120中被管理。事业特性词表具有每个事业特性词的记录。在事业特性词表的记录中设定有事业特性词ID和事业特性词。在准备阶段前准备事业特性词表。
图4是行业种类表的数据结构图。
行业种类表在企业数据库120中被管理。行业种类表具有每个行业种类的记录。在行业种类表的记录设定有行业种类ID和行业种类名。在准备阶段前准备行业种类表。
图5是单词表的数据结构图。
单词表包含在分词表达模型中。单词表具有每个单词的记录。在单词表的记录中设定有单词和单词向量。在准备阶段生成单词表。
图6是企业向量存储部的数据结构图。
企业向量相当于企业的事业内容句集整体的分词表达向量。企业向量从事业内容句集中所含的单词的单词向量生成。企业向量存储部包含于分词表达模型保存部130中。企业向量在准备阶段计算。企业向量成为事业特性词向量和行业种类向量的计算的基础。
图7是事业特性词向量存储部的数据结构图。
事业特性词向量表示事业特性词的实践的意义。事业特性词向量是从设定了事业特性词的企业的企业向量生成的向量,与相当于事业特性词的单词(例如,“地域”)的单词向量不同。事业特性词根据实际上容易由哪种企业设定而决定其意义这种运用上的特性通过事业特性词向量被数值化。事业特性词向量在准备阶段计算。
事业特性词向量存储部将事业特性词ID和事业特性词向量彼此关联地存储。事业特性词向量存储部包含于分词表达模型保存部130。事业特性词ID是标签ID的例子,事业特性词向量是标签向量的例子。
图8是行业种类向量存储部的数据结构图。
行业种类向量表示行业种类标签的实践的意义。行业种类向量是从设定了行业种类标签的企业的企业向量生成的向量,与相当于行业种类名的短语(例如,“汽车销售商”)的语义向量不同。行业种类标签根据实际上容易由哪种企业设定而决定其意义这种运用上的特性通过行业种类向量被数值化。行业种类向量在准备阶段计算。
行业种类向量存储部将行业种类ID和行业种类向量彼此关联地存储。行业种类向量存储部包含于分词表达模型保存部130。行业种类ID是标签ID的例子,行业种类向量是标签向量的例子。
图9是检索查询的受理画面图。
检索查询的受理画面由服务器100生成,在用户终端200上显示。该受理画面除检索查询的输入区域300以外还包含:滑块(slider)302、相似词的显示区域304、事业特性词的显示区域306、和行业种类的显示区域308。
在相似词的显示区域304显示与作为检索查询输入的语句的相似度为基准值以上的相似词。相似词从事业内容句集中所含的所有单词中选择。将该基准值称为第1基准值。在事业特性词的显示区域306显示与作为检索查询输入的语句的相似度为基准值以上的事业特性词。将该基准值称为第2基准值。事业特性词预先设定。从其中选择相似的词。在行业种类的显示区域308显示与作为检索查询输入的语句的相似度为基准值以上的行业种类。将该基准值称为第3基准值。行业种类也预先设定。从其中选择相似的词。
滑块302表示的滑块值表示第1基准值、第2基准值和第3基准值。在该例子中,滑块值为最大值,第1基准值、第2基准值和第3基准值也为最大值。不存在与“汽车”的相似度为第1基准值以上的相似词、相同第2基准值以上的事业特性词和相同第3基准值以上的行业种类,均未显示。在该情况下,用输入于输入区域300的检索查询进行检索。
图10是检索结果画面中所含的企业信息框的图。
表示图9的状态下的作为检索结果显示的企业信息框。在事业内容句集、事业特性词名、主行业种类名和副行业种类名的文本中,从企业数据库120提取包含“汽车”的企业信息。提取出的企业信息中包含的企业名在显示区域322显示。同样事业内容句集在显示区域324显示。同样事业特性词在显示区域326显示。同样主行业种类在显示区域328显示。同样副行业种类在显示区域330显示。除该例以外,如果具有包含“汽车”的企业信息,则在检索结果画面上作为对话框一览显示。此外,检索结果画面在检索查询的受理画面的下方并排显示。当输入检索查询时,自动进行检索,显示检索结果画面。
图11是缩小滑块值时的检索查询的受理画面图。
当用户操作滑块302,缩小滑块值时,第1基准值、第2基准值和第3基准值变小,满足条件的相似词、事业特性词和行业种类出现。
例如,“汽车”的单词向量和“自行车”的单词向量的相似度是此时的滑块值表示的第1基准值以上。“自行车”的单词向量和“半旧”的事业特性词向量的相似度是此时的滑块值表示的第2基准值以上。另外,“自行车”的单词向量和“汽车销售商”的行业种类向量的相似度是此时的滑块值表示的第3基准值以上。
在此,出现的相似词、事业特性词和行业种类名作为企业信息的检索中的OR条件被附加。从企业数据库120提取事业内容句集、事业特性词名、主行业种类名和副行业种类名的文本中包含“自行车”、“半旧”或“汽车销售商”等的企业信息。
图12是进一步缩小滑块值时的检索查询的受理画面图。
当用户操作滑块302,进一步缩小滑块值时,第1基准值、第2基准值和第3基准值进一步变小,满足条件的相似词、事业特性词和行业种类增加。
由此,增加的“卡车”、“品质”或“汽车制造商”等也作为企业信息的检索中的OR条件被附加。
这样,通过操作滑块302,调节与检索查询关联的强度,增减检索条件中附加的相似词、事业特性词和行业种类。由此,能够调节企业信息的检索的包罗性。在上述的例子中,按顺序提高包罗性。对该动作进行说明。
图13是相似词列表的数据结构图。
当在利用阶段输入检索查询时,与其相应地生成相似词列表。相似词列表存储于关联语句存储部140。相似词列表与各单词彼此关联地存储该单词与检索查询的语句的相似度。相似词列表以相似度的降序排序。
在图11的例子中,滑块302的值为0.7,第1基准值也为0.7,所以挑选相似词的“自行车”、“出租车”和“公交车”。在图12的例子中,滑块302的值为0.6,第1基准值也为0.6,所以添加相似词的“卡车”、“交通”和“铁路”。
图14是事业特性词列表的数据结构图。
当在利用阶段输入检索查询时,与其相应地生成事业特性词列表。事业特性词列表存储于关联语句存储部140。事业特性词列表与各事业特性词彼此关联地存储其事业特性词与检索查询的语句的相似度。事业特性词列表以相似度的降序排序。
在图11的例子中,第1基准值也为0.7,所以挑选事业特性词的“半旧”、“修理”和“高级”。在图12的例子中,第1基准值为0.6,所以添加事业特性词的“品质”、“大众”和“新品”。
图15是行业种类列表的数据结构图。
当在利用阶段输入检索查询时,与其相应地生成行业种类列表。行业种类列表存储于关联语句存储部140。行业种类列表与各行业种类彼此关联地存储该行业种类与检索查询的语句的相似度。行业种类列表以相似度的降序排序。
在图11的例子中,第1基准值为0.7,所以挑选行业种类的“汽车销售商”、“汽车维修业”和“汽车租赁业”。在图12的例子中,第1基准值为0.6,所以添加行业种类的“汽车制造商”、“运输业”和“房屋销售”。
图16是在图11的状态下检索结果画面中所含的企业信息框的图。
在该例子中,与检索查询的语句相似的事业特性词“高级”的字符串与事业特性词名一致,所以该企业信息作为检索结果显示。此外,“高级”的字符串在包含于事业内容句集、主行业种类名或副行业种类名的情况下命中。即,事业内容句集、主行业种类名或副行业种类名也设为搜索范围。但是,也可以不将事业内容句集、主行业种类名或副行业种类名设为搜索范围。
图17是在图12的状态下检索结果画面中所含的企业信息框的图。
在该例子中,与检索查询的语句相似的行业种类“住宅销售商”的字符串与主行业种类名一致,所以该企业信息作为检索结果显示。此外,“住宅销售商”的字符串在包含于事业内容句集、事业特性词殴主行业种类名的情况下命中。即,事业内容句集、事业特性词或副行业种类名也设为搜索范围。但是,也可以不将事业内容句集、事业特性词或副行业种类名设为搜索范围。
基于这些画面例表示运用例。例如,假设想找到汽车保险新的合同候选人的保险业者利用该检索系统。保险业者首先输入“汽车”作为检索查询,得到图10的检索结果。图10所示的汽车销售商很难成为新的交易渠道。是因为经由汽车销售商推广汽车保险是一直以来很普遍的。
于是,如图11所示,操作滑块302提高包罗性,得到再检索的图16的企业信息。“红玫瑰”的企业信息虽然不包含“汽车”的字符串,但经由与“汽车”关联性高的事业特性词“高级”实质上与“汽车”关联。保险业者观察“红玫瑰”的事业内容,认为“红玫瑰”派遣的助手可能导致在驾驶富裕阶层的顾客的高级车时引起事故时的高额的赔偿。然后,保险业者发现能够对“红玫瑰”提出保险合同。
接着,如图12所示,操作滑块302进一步提高包罗性,得到再检索的图17的企业信息。在“黄柠檬”的企业信息中虽然不包含“汽车”的字符串,但经由与“汽车”关联性高的业务“住宅销售商”实质上与“汽车”有关联。保险业者观察该事业内容,因为购买带停车位的住宅,所以认为入居者必然有汽车。另外,选择熟悉地域情况的从业员意味着入居者不熟悉该地域的交通情况,且熟人也少。因此,如果担心在不知道的地域发生交通事故和其它居民发生纠纷,就会意识到这是加入保险的动机。这样,就能不断地找到扩大业务的头绪。
在该例子中,保险业者难以注意到“高级”或“住宅销售商”成为业务扩大的关键字。但是,根据本实施方式,从常有的“汽车”的单词中能够碰见目标的企业信息。
由于人的内容描述的标记差异多,人工赋予的标签信息不能保证包罗性,所以根据本实施方式能够通过辅助检索来补全包罗性。以下,对处理的详细进行说明。
图18是服务器100的功能框图。
服务器100的各构成要素由CPU(Central Processing Unit)和各种协处理器等运算器、内存和存储器的存储装置、包含将它们连结的有线或无线的通讯线路的硬件、保存于存储装置且向运算器供给处理命令的软件实现。计算机程序也可以通过设备驱动、操作系统、位于它们的上层的各种应用程序、且向这些程序提供常用功能的程序库构成。图示的各块不是硬件单位的结构,而表示功能单位的块。
服务器100包含数据保存部110、数据处理部150和通信部190。通信部190负责经由网络的通信处理。数据保存部110保存各种数据。数据处理部150基于通过通信部190取得的数据和保存于数据保存部110的数据执行各种处理。数据处理部150还作为通信部190和数据保存部110的接口起作用。
通信部190包含发送数据的发送部180和接收数据的接收部170。
发送部180包含发送各种画面数据的画面数据发送部182。接收部170包含检索查询接收部172和滑块值接收部174。检索查询接收部172接收检索查询。滑块值接收部174接收滑块值。
数据处理部150包含:模型生成部152、企业向量计算部154、事业特性词向量计算部156、行业种类向量计算部158、画面数据生成部160和检索部162。
模型生成部152执行计算单词向量的分词表达模型生成处理。企业向量计算部154执行企业向量计算处理。事业特性词向量计算部156执行事业特性词向量计算处理。行业种类向量计算部158执行行业种类向量计算处理。画面数据生成部160生成各种画面数据。检索部162进行企业信息的检索。
数据保存部110包含:企业数据库120、分词表达模型保存部130和关联语句存储部140。
图19是数据保存部110的功能框图。
企业数据库120包含:企业表保存部122、事业特性词表保存部124和行业种类表保存部126。企业表保存部122保存企业表(图2)。事业特性词表保存部124保存事业特性词表(图3)。行业种类表保存部126保存行业种类表(图4)。
分词表达模型保存部130包含:单词表保存部132、企业向量存储部134、事业特性词向量存储部136和行业种类向量存储部138。
单词表保存部132保存单词表(图5)。对于企业向量存储部134与图6关联地说明。对于事业特性词向量存储部136与图7关联地说明。对于行业种类向量存储部138与图8关联地说明。
关联语句存储部140包含:相似词列表存储部142、事业特性词列表存储部144和行业种类列表存储部146。
相似词列表存储部142存储相似词列表(图13)。事业特性词列表存储部144存储事业特性词列表(图14)。行业种类列表存储部146存储行业种类列表(图15)。
图20是表示准备阶段处理的过程的流程图。
首先,模型生成部152执行分词表达模型生成处理(S20)。在分词表达模型生成处理中,生成单词表(图5)作为分词表达模型。对于分词表达模型生成处理与图21关联地后述。
接着,企业向量计算部154执行企业向量计算处理(S22)。对于企业向量计算处理与图22关联地后述。
接着,事业特性词向量计算部156执行事业特性词向量计算处理(S24)。对于事业特性词向量计算处理与图23关联地后述。
最后,行业种类向量计算部158执行行业种类向量计算处理(S26)。对于行业种类向量计算处理与图24关联地后述。
图21是表示分词表达模型生成处理的过程的流程图。
模型生成部152从企业表生成语料库(S30)。语料库是将自然语言的文章结构化而成的大规模数据。语料库保持于数据保存部110。具体而言,模型生成部152针对从各企业的事业内容句集提取的每个句子,进行形态分析并将其转换为分隔书写格式。分隔书写是将单词之间用空白隔开进行分隔的字符串。分隔书写格式的数据成为语料库。
模型生成部152使用语料库生成单词向量(S32)。具体而言,模型生成部152例如通过Word2vec的学习处理求出关于语料库中所含的各单词的单词向量。所生成的单词向量保存于单词表保存部132。然后,返回S22的处理。
图22是表示企业向量计算处理的过程的流程图。
企业向量计算部154对每个企业反复进行以下的处理(S40)。企业向量计算部154计算该企业的事业内容句集中所含的各句子的句子向量(S42)。从句子中所含的单词的单词向量生成句子向量。生成方法例如为平均化。即,句子向量为单词向量的平均向量。
企业向量计算部154计算事业内容句集中所含的各句子的句子向量的平均,将计算出的平均向量作为企业向量(S44)。企业向量计算部154也可以通过除平均化以外的方法从句子向量生成企业向量。计算出的企业向量存储于企业向量存储部134。
如果还存在未处理的企业(S46的N),则企业向量计算部154返回S40的处理。对于所有企业处理结束时(S46的Y),返回S24的处理。
图23是表示事业特性词向量计算处理的过程的流程图。
事业特性词向量计算部156对每个事业特性词反复进行以下的处理(S50)。事业特性词向量计算部156参照企业表,选出设定了该事业特性词的企业(S52)。
事业特性词向量计算部156计算选出的企业向量的平均向量,将计算出的平均向量作为该事业特性词的事业特性词向量(S54)。事业特性词向量计算部156也可以通过除平均化以外的方法从企业向量生成事业特性词向量。计算出的事业特性词向量存储于事业特性词向量存储部136。
如果还存在未处理的事业特性词(S56的N),则事业特性词向量计算部156返回S50的处理。对于所有事业特性词处理结束时(S56的Y),返回S26的处理。
图24是表示行业种类向量计算处理的过程的流程图。
行业种类向量计算部158对每个行业种类重复以下的处理(S60)。行业种类向量计算部158参照企业表,选出设定了该行业种类的企业(S62)。
行业种类向量计算部158计算选出的企业向量的平均向量,将计算出的平均向量作为该行业种类的行业种类向量。行业种类向量计算部158也可以通过除平均化以外的方法从企业向量生成行业种类向量。计算出的行业种类向量存储于行业种类向量存储部138。
如果还存在未处理的行业种类(S66的N),则行业种类向量计算部158返回S60的处理。对于所有行业种类处理结束时(S66的Y),结束准备阶段处理。
图25是表示利用阶段处理的过程的流程图。
检索查询接收部172从显示检索查询的受理画面的用户终端200接收到检索查询的情况下(S70的Y),画面数据生成部160执行列表生成处理(S72)。在列表生成处理中,生成相似词列表(图13)、事业特性词列表(图14)和行业种类列表(图15)。对于列表生成处理与图26关联地后述。
接着,画面数据生成部160执行画面生成处理(S74)。在画面生成处理中,在检索查询的受理画面上再次显示相似词、事业特性词和行业种类。另外,进行企业信息的检索,显示检索结果的画面。关于画面生成处理与图27关联地后述。
接着,画面数据发送部182在画面数据发送处理中将画面数据发送到用户终端200(S76)。然后,返回S70的处理。用户终端200基于接收到的画面数据,显示检索查询的受理画面和检索结果的画面。
滑块值接收部174从显示检索查询的受理画面的用户终端200接收到滑块值的情况下(S78的Y),基于滑块值变更第1基准值、第2基准值和第3基准值。在该例子中,直接使用滑块值作为新的第1基准值、新的第2基准值和新的第3基准值。
当变更第1基准值、第2基准值和第3基准值时,画面数据生成部160基于变更的第1基准值、第2基准值和第3基准值执行画面生成处理(S82)。另外,画面数据发送部182在画面数据发送处理中发送重新生成的画面数据(S84)。用户终端200基于接收到的画面数据,显示检索查询的受理画面和检索结果的画面。然后,返回S70的处理。
如果从用户终端200接受结束指示(S86的Y),则结束利用阶段处理。如果没有从用户终端200接受结束指示,则返回到S70的处理。
图26是表示列表生成处理的过程的流程图。
画面数据生成部160对全单词计算与检索查询的相似度(S90)。如果检索查询为单词,则将该单词的单词向量设为检索查询的语义向量。如果检索查询为短语,则从该短语中所含的单词的向量生成检索查询的语义向量。生成的方法例如为平均化。然后,求出各单词的单词向量与检索查询的语义向量的相似度。画面数据生成部160例如计算余弦相似度。以下的相似度也同样。
画面数据生成部160按照相似度高的顺序将单词排序,生成相似词列表(S92)。所生成的相似词列表存储于相似词列表存储部142。
画面数据生成部160对全事业特性词计算与检索查询的相似度(S94)。具体而言,画面数据生成部160求出各事业特性词的事业特性词向量与检索查询的语义向量的相似度。
画面数据生成部160按照相似度高的顺序将事业特性词排序,生成事业特性词列表(S96)。所生成的事业特性词列表存储于事业特性词列表存储部144。
画面数据生成部160对全行业种类计算与检索查询的相似度(S98)。具体而言,画面数据生成部160求出各行业种类的行业种类向量与检索查询的语义向量的相似度。
画面数据生成部160按照相似度高的顺序将行业种类排序,生成行业种类列表(S100)。所生成的行业种类列表存储于行业种类列表存储部146。然后,返回到S74的处理。
图27是表示画面生成处理的过程的流程图。
画面数据生成部160将具有第1基准值以上的相似度的相似词配置于检索查询的受理画面中的相似词的显示区域304(S110)。画面数据生成部160将具有第2基准值以上的相似度的事业特性词配置于检索查询的受理画面中的事业特性词的区域306(S112)。另外,画面数据生成部160将具有第3基准值以上的相似度的行业种类配置于检索查询的受理画面中的行业种类的区域308(S114)。
画面数据生成部160在这些相似词、事业特性词和行业种类的OR条件下检索企业信息(S116)。例如,生成作为搜索这些相似词、事业特性词和行业种类的字符串的新的检索查询,并将该检索查询输入到数据库管理系统(DataBase Management System)。数据库管理系统将各企业的企业信息(表示事业内容句集、事业特性词、主行业种类和副行业种类的文本的组)作为比较对象,挑选符合的企业信息。数据库管理系统是管理企业数据库120,对企业数据库120进行操作的软件。
画面数据生成部160将显示命中的企业信息的企业信息框配置于检索结果的画面上(S118)。然后,返回到S70的处理。
[变形例]
也可以能够删除在检索查询的受理画面上显示的相似词、事业特性词和行业种类中不需要的词。当通过用户操作指示不需要的相似词、事业特性词或行业种类时,将相似词、事业特性词或行业种类的删除请求从用户终端200发送到服务器100。当服务器100的请求接收部(未图示)接收到削除请求时,删除部(未图示)从相似词列表、事业特性词列表或行业种类列表删除不需要的相似词、事业特性词或行业种类。然后,服务器100再次进行列表生成处理、画面生成处理和画面数据发送处理。
示出了与检索查询的受理连动地自动进行企业信息的检索的例子,但也可以在通过用户操作接受检索执行的指示后,进行企业信息的检索。
画面数据生成部160也可以在检索查询的受理画面中,在相似词的附近配置检索查询与相似词的相似度。画面数据生成部160也可以在检索查询的受理画面中,在事业特性词的附近配置检索查询与事业特性词的相似度。画面数据生成部160也可以在检索查询的受理画面中,在行业种类的附近配置检索查询与行业种类的相似度。
示出了检索查询的受理画面和检索结果的画面并排显示的例子,但也可以切换显示检索查询的受理画面和检索结果的画面。
服务器100也可以转换滑块值求出第1基准值、第2基准值和第3基准值。另外,第1基准值、第2基准值和第3基准值也可以是不同的值。例如,画面数据生成部160以与滑块值相关的方式计算第1基准值、第2基准值和第3基准值。画面数据生成部160也可以使滑块值乘以第1系数求出第1基准值。画面数据生成部160也可以使滑块值乘以第2系数求出第2基准值。画面数据生成部160也可以使滑块值乘以第3系数求出第3基准值。
在向量的平均化中,例如也可以使用如TF-IDF(Term Frequency-InverseDocument Frequency)的评价指标对每个作为原始的单词向量、每个短语向量或每个句子向量等进行加权。
示出了检索企业信息的例子,但也可以检索其种类的信息。例如,在电子商务交易的网站上检索商品信息的情况下,也可以对于附属于商品介绍句集的商品分类的标签和商品特性的标签,计算商品分类向量和商品特性向量。而且,也可以使用与检索查询相似的商品分类向量或商品特性向量补充检索条件。
例如,在阅览专利文献的网站上检索专利文献的情况下,也可以对于专利文献中所附带的专利分类的标签,计算专利分类向量。而且,也可以使用与检索查询相似的专利分类向量补充检索条件。
例如,在SNS(Social Networking Service)的投稿网站上检索投稿消息的情况下,也可以对于如附属于投稿消息的哈希标签那样的消息分类标签,计算消息分类向量。而且,也可以使用与检索查询相似的消息分类向量补充检索条件。
此外,本发明不限定于上述实施方式和变形例,能够在不脱离意旨的范围内将构成要素变形并具体化。也可以通过适当组合上述实施方式和变形例中公开的多个构成要素,而形成各种发明。另外,也可以从上述实施方式和变形例中表示的全部构成要素删除一些构成要素。

Claims (5)

1.一种自然语言处理装置,其特征在于,包括:
第1计算部,其对于管理与分类词相关联的多个句子的数据库,计算所述多个句子中所含的单词的分词向量;
第2计算部,其基于各句子中所含的单词的分词向量,计算该句子的分词向量;和
第3计算部,其基于与相同分类词相关联的各句子的分词向量,计算该分类词的分词向量。
2.如权利要求1所述的自然语言处理装置,其特征在于,还包括:
输入部,其能够输入语句;
选择部,其能够选择与所输入的所述语句的分词向量相似的分词向量的分类词;和
输出部,其能够输出选择出的所述分类词。
3.如权利要求2所述的自然语言处理装置,其特征在于:
所述选择部选择多个分类词,
所述输出部将选择出的所述多个分类词按照与所输入的所述语句的所述分词向量的相似度的顺序排列输出。
4.如权利要求3所述的自然语言处理装置,其特征在于:
所述输出部输出所输入的所述语句的所述分词向量与选择出的所述分类词的所述分词向量的相似度。
5.一种存储有程序的计算机存储介质,其特征在于:
所述程序使信息处理装置发挥以下功能:
第1计算功能,对于管理与分类词相关联的多个句子的数据库,计算所述多个句子中所含的单词的分词向量;
第2计算功能,基于各句子中所含的单词的分词向量,计算该句子的分词向量;和
第3计算功能,基于与相同分类词相关联的各句子的分词向量,计算该分类词的分词向量。
CN202010206312.3A 2020-03-19 2020-03-23 自然语言处理装置和程序 Pending CN113495950A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020049602A JP7519793B2 (ja) 2020-03-19 2020-03-19 自然言語処理装置およびプログラム
JP2020-049602 2020-03-19

Publications (1)

Publication Number Publication Date
CN113495950A true CN113495950A (zh) 2021-10-12

Family

ID=77748420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010206312.3A Pending CN113495950A (zh) 2020-03-19 2020-03-23 自然语言处理装置和程序

Country Status (3)

Country Link
US (1) US11308941B2 (zh)
JP (1) JP7519793B2 (zh)
CN (1) CN113495950A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038602A1 (en) * 2005-08-10 2007-02-15 Tina Weyand Alternative search query processing in a term bidding system
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
JP2018073429A (ja) * 2017-11-15 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム
CN108885617A (zh) * 2016-03-23 2018-11-23 株式会社野村综合研究所 语句解析系统以及程序
JP2019149161A (ja) * 2018-02-27 2019-09-05 株式会社リコー 単語表現を生成する方法、装置及びコンピュータ読み取り可能な記憶媒体
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
JP2005025465A (ja) 2003-07-01 2005-01-27 Toshiba Corp 文書検索方法及び文書検索装置
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7873595B2 (en) * 2006-02-24 2011-01-18 Google Inc. Computing a group of related companies for financial information systems
JP5160312B2 (ja) 2008-06-05 2013-03-13 株式会社東芝 文書分類装置
KR20120052636A (ko) * 2010-11-16 2012-05-24 한국전자통신연구원 온톨로지 기반의 품목분류코드 추천 시스템 및 방법
US8751496B2 (en) * 2010-11-16 2014-06-10 International Business Machines Corporation Systems and methods for phrase clustering
US9092425B2 (en) * 2010-12-08 2015-07-28 At&T Intellectual Property I, L.P. System and method for feature-rich continuous space language models
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
US9037464B1 (en) * 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space
US9842105B2 (en) * 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10248718B2 (en) * 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
US10599731B2 (en) * 2016-04-26 2020-03-24 Baidu Usa Llc Method and system of determining categories associated with keywords using a trained model
US10719509B2 (en) * 2016-10-11 2020-07-21 Google Llc Hierarchical quantization for fast inner product search
CA3047353C (en) * 2017-01-06 2023-05-23 The Toronto-Dominion Bank Learning document embeddings with convolutional neural network architectures
JP2018112853A (ja) 2017-01-11 2018-07-19 日本放送協会 話題分類装置およびそのプログラム
JP2019012457A (ja) 2017-06-30 2019-01-24 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
US10747793B2 (en) * 2017-10-27 2020-08-18 Microsoft Technology Licensing, Llc Expanding search queries
US10769141B2 (en) * 2017-10-27 2020-09-08 Microsoft Technology Licensing, Llc Expanding search queries
JP7006402B2 (ja) * 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038602A1 (en) * 2005-08-10 2007-02-15 Tina Weyand Alternative search query processing in a term bidding system
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
CN108885617A (zh) * 2016-03-23 2018-11-23 株式会社野村综合研究所 语句解析系统以及程序
JP2018073429A (ja) * 2017-11-15 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム
JP2019149161A (ja) * 2018-02-27 2019-09-05 株式会社リコー 単語表現を生成する方法、装置及びコンピュータ読み取り可能な記憶媒体
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董守斌,袁华编著: "《网络信息检索》", vol. 1, 30 April 2010, 西安电子科技大学出版社, pages: 315 - 316 *

Also Published As

Publication number Publication date
US20210295830A1 (en) 2021-09-23
JP7519793B2 (ja) 2024-07-22
JP2021149613A (ja) 2021-09-27
US11308941B2 (en) 2022-04-19

Similar Documents

Publication Publication Date Title
CN108268619B (zh) 内容推荐方法及装置
US8190556B2 (en) Intellegent data search engine
US20240028651A1 (en) System and method for processing documents
US6523025B1 (en) Document processing system and recording medium
KR101098703B1 (ko) 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법
US8005815B2 (en) Search engine
US8131684B2 (en) Adaptive archive data management
US20070150495A1 (en) Program for mapping of data schema
JP2013531289A (ja) 検索におけるモデル情報群の使用
KR20100044669A (ko) 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN114254201A (zh) 一种科技项目评审专家的推荐方法
US9552415B2 (en) Category classification processing device and method
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN101937432A (zh) 一种按照供需信息进行两方撮合的系统与方法
CN102227723B (zh) 辅助误译的检测的装置及方法
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN115168736A (zh) 一种评标专家推荐方法、装置、设备及介质
CN111428100A (zh) 一种数据检索方法、装置、电子设备及计算机可读存储介质
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN113495950A (zh) 自然语言处理装置和程序
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
CN110851560A (zh) 信息检索方法、装置及设备
CN111858938B (zh) 一种裁判文书标签的提取方法及装置
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination