WO2005069171A1 - Document correlation device and document correlation method - Google Patents

Document correlation device and document correlation method Download PDF

Info

Publication number
WO2005069171A1
WO2005069171A1 PCT/JP2005/000333 JP2005000333W WO2005069171A1 WO 2005069171 A1 WO2005069171 A1 WO 2005069171A1 JP 2005000333 W JP2005000333 W JP 2005000333W WO 2005069171 A1 WO2005069171 A1 WO 2005069171A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
content
section
information
speaker
Prior art date
Application number
PCT/JP2005/000333
Other languages
French (fr)
Japanese (ja)
Inventor
Kyoji Hirata
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2005517060A priority Critical patent/JP4600828B2/en
Publication of WO2005069171A1 publication Critical patent/WO2005069171A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • a method of automatically documenting document data in a corresponding part of an audio recording or a video recording accompanied by an audio is known.
  • Japanese Unexamined Patent Application Publication No. 7-199379 discloses that a voice in a voice recording or a video accompanying a voice is subjected to text recognition by voice recognition processing, and the text and document information stored in order in a document storage device.
  • a method has been proposed that considers both to be the same if they contain the same set of characters.
  • the automatic speech recognizer decodes the speech and the decoded text is collated with the document information via identification of similar words or clusters of words.
  • the first problem of the document correspondence method for associating these conventional video or audio with! /, Itsuto contents and a document is that the accuracy of correspondence between audio information and document data is significantly higher than the accuracy of voice recognition. Therefore, when the accuracy of speech recognition is not sufficiently obtained, the correspondence between the speech information and the document data is not accurately derived.
  • the conventional method described in the above-mentioned Japanese Patent Application Laid-Open No. 7-199379 and Japanese Patent Application Laid-Open No. 2000-270263 after converting speech into text by speech recognition processing, the converted text and document data are converted. Synchronized between.
  • the conversation content is limited to a specific topic, it is possible to improve the accuracy of speech recognition by taking measures such as optimally selecting a dictionary for recognition based on the topic to be estimated.
  • topics cannot be estimated in advance in many cases. In such a case, if an incorrect dictionary is used, there is a problem that the accuracy of speech recognition is further reduced.
  • the speech recognition results containing many errors when the voice recording or the video recording accompanied by the voice is correlated with the document information, the number of mapping errors increases, and simultaneous text display and keyword It will be difficult to use it for search cueing.
  • Japanese Patent Application Laid-Open No. 2000-348064 discloses a method for searching for speech information using content information and speaker information.
  • a method and apparatus are disclosed.
  • a method for retrieving speech information using the content information and the speaker information is a method for retrieving speech information for one or more speech sources.
  • Japanese Patent Application Laid-Open No. 2002-189728 discloses a multimedia information editing apparatus, a method and a recording medium, and a multimedia information distribution system.
  • This multimedia information editing device edits multimedia information.
  • the multimedia information editing apparatus is characterized by comprising a storage means, a voice discriminating means, a document converting means, and a multimedia structure deciding means.
  • the storage means stores multimedia information such as audio and moving images.
  • the voice discriminating means determines whether a voice is added to the multimedia information stored in the storage means.
  • the document converting means converts the voice information into document information when the voice is added by the voice discriminating means.
  • the multimedia structuring unit language-analyzes the document converted by the document converting unit, and structures and associates the document with the multimedia information.
  • Japanese Patent Application Laid-Open No. 2002-236494 discloses techniques of a speech section discrimination device, a speech recognition device, a program, and a recording medium.
  • This voice section discriminating apparatus is characterized by comprising acoustic analysis means, standard pattern storage means, matching means, judgment means, and voice section discrimination means.
  • the acoustic analysis means acoustically analyzes a voice input from the outside at a predetermined cycle, and obtains an acoustic feature based on the analysis result.
  • the standard pattern storage means stores a standard pattern corresponding to a single speaker's voice and a mixed voice of a plurality of speakers under the premise that voices of a plurality of speakers may be mixed in the input voice.
  • the matching unit performs matching between the standard pattern stored in the standard pattern storage unit and the acoustic feature amount obtained by the acoustic analysis unit.
  • the determining means determines a force at which the input voice is similar to any of the standard patterns at each of the predetermined cycles based on a processing result by the matching means.
  • the voice section discriminating means includes a step of discriminating a voice section of each speaker based on a result of the determination by the determining means.
  • the index includes a plurality of timestamps indicating the occurrence of a word in the recorded speech; c) searching for text by the full 'text' server using the full 'text index; d) Storing the search text, the full'text index, and the recorded speech in the database. The specific content of the recorded audio is played back using the full text index without listening to the entire recording.
  • Japanese Patent Application Laid-Open No. 11-242669 discloses a technique of a document processing apparatus.
  • This document processing apparatus is characterized by comprising voice input means, extraction means, attribute generation means, document storage means, instruction means, output means, and attachment means.
  • the voice input means inputs voice.
  • the extracting means extracts information for specifying the speaker from the voice input by the voice input means.
  • the attribute generating means generates speaker attribute information by comparing the extracted information with predetermined reference information.
  • the document storage means stores a document.
  • the instruction unit indicates a position in the document to which the input voice is to be attached.
  • the output means outputs the document.
  • the attachment means stores, in the document storage means, group information including information on a position in the document designated by the designation means, the input voice, and speaker attribute information generated by the attribute generation means. I do.
  • the document association method of the present invention includes: (a) a content including at least one of audio information and video information in which a plurality of speakers appear as speakers; A step of preparing a document describing the content of the content; and (b) a step of deriving the correspondence between the content and the document for each speaker.
  • the (b2) step includes: (b21) a single power of the plurality of speakers. And (b22) dividing the content for each speaker based on the point in time when the speaker changes.
  • the step (b21) includes a step (b211) of extracting the change point of the voice of the speaker from the voice information, wherein the content is the voice information.
  • the step (b21) includes a step (b212) of extracting the change point of the video of the speaker from the video information, wherein the content is the video information.
  • the content is audio-video information in which the audio information and the video information are synchronized.
  • the (b21) step is (b215) performing a change point analysis of a visual feature of the video information and a change point analysis of a sound feature of the audio information. To derive the point in time at which the speaker changed.
  • the step (b) includes the step of (b4) analyzing the structure of the document, and dividing the document for each speaker.
  • the computer program product of the present invention when used on a computer, has the following! /, Having program code means for executing all steps described in any one of the above.
  • the document association apparatus of the present invention includes a content section extraction unit, a document section extraction unit, and a section correspondence relation derivation unit.
  • the content section extraction unit extracts a plurality of content sections by dividing the content for each speaker for content including at least one of voice information and video information in which a plurality of speakers appear as speakers. I do.
  • the document section extraction unit extracts a plurality of document sections by dividing the document describing the content of the content into speaker units.
  • the section correspondence deriving unit derives a correspondence between the plurality of content sections and the plurality of document sections.
  • the content is the video information.
  • the content section extraction unit analyzes the visual characteristics of the video information and extracts the plurality of content sections.
  • the content is audio-video information in which the audio information and the video information are synchronized.
  • the content section extraction unit outputs the audio information.
  • the result of the analysis of the sound feature of the report and the result of the analysis of the visual feature of the video information are integrated to extract the plurality of content sections.
  • the content extracting unit includes an audio section extracting unit, a video section extracting unit, and an audio / video section integrating unit.
  • the voice section extracting unit analyzes the sound characteristics of the voice information, divides the voice information into speaker units, and extracts a plurality of voice sections.
  • the video section extractor analyzes the visual characteristics of the video information and divides the video information into speaker units to extract a plurality of video sections.
  • the audio-video section integration unit extracts the plurality of content sections based on the plurality of pieces of audio section information regarding the plurality of audio sections and the plurality of pieces of video section information regarding the plurality of video sections.
  • the content section extraction unit may determine that one of the plurality of speakers in the content is a speaker at the time when the speaker changes to another one of the plurality of speakers. A change point is extracted, and a plurality of content sections are extracted.
  • the content includes the audio information.
  • the content section extraction unit extracts the speaker change point based on a change in a characteristic of at least one of the prosodic information of the utterance height, the utterance speed, and the utterance size in the audio information.
  • the content includes the audio information.
  • the content section extraction unit extracts the speaker change point based on a change in the conversation mode in the voice information.
  • the content includes the video information.
  • the content section extraction unit extracts the speaker change point based on a change in a visual feature of a person in the video information.
  • the content includes the video information.
  • the content section extraction unit extracts the speaker change point based on a change in a facial feature of a person in the video information.
  • the content includes the video information.
  • the content section extraction unit extracts the speaker change point based on a change in a visual feature of a person's clothing in the video information.
  • the document section extracting unit extracts the plurality of document sections based on the format information of the document.
  • the document section extracting unit extracts the plurality of document sections based on the description about the speaker written in the document.
  • the document section extracting unit extracts the plurality of document sections based on the tag information of the structured document in the document.
  • the document section extracting unit extracts the plurality of document sections based on a change in conversation characteristics in the document.
  • the section correspondence deriving unit determines the plurality of content sections based on a comparison between the section length of the plurality of content sections and the document amount of the plurality of document sections. And a plurality of document sections.
  • the section correspondence deriving section includes a content speaker identifying section, a document speaker information extracting section, and a section matching section.
  • the content speaker identification unit specifies a speaker in at least one of the plurality of content sections.
  • the document speaker information extracting unit specifies a speaker in at least one of the plurality of document sections, and obtains speaker information as information of the speaker.
  • the section matching unit matches the plurality of content sections with the plurality of document sections based on the speaker information.
  • the content speaker identification unit includes a content characteristic amount extraction unit, a speaker information storage unit, and a characteristic amount matching identification unit.
  • the content feature extraction unit extracts a feature in at least one of the plurality of content sections.
  • the speaker information storage unit stores the feature amount and the speaker in association with each other.
  • the feature quantity matching identification unit identifies the speaker based on a comparison between the stored feature quantity and the extracted feature quantity.
  • the content speaker identification unit determines the voice pitch, voice length, and voice strength in the audio information.
  • a document associating device for identifying the speaker based on at least one feature of the prosody information.
  • the average fundamental frequency is used to obtain changes in the characteristics of prosody information such as voice pitch, voice length, and voice loudness (an example of changes in voice characteristics).
  • the average speech time length, and the average speech rate may be used.
  • conversational features such as wording and habits may be used. In that case, at least one change in the characteristics of the prosodic information should be used.
  • the scene division unit 31 measures a difference between frames of the input video to detect a portion where the video information has greatly changed, and, based on the detection result, configures a first visually composed frame.
  • a video section is extracted (step S201).
  • the person extraction and person feature value deriving unit 32 extracts a person region appearing in the video and performs image processing on the person region to derive a person feature value (step S202).
  • the difference between the previous frame and the background difference method which is a method widely used in the field of surveillance, is a specific value or more.
  • Adopt as a person area A method is illustrated.
  • step S205 The new person feature and the person feature stored in the person feature and start time storage unit 33 are compared. Then, the person feature matching section 34 determines that the utterance by the same person is continued when the person feature in both sections is more similar than the threshold set in advance (step S206: YES). If the video data has not ended (step S209: NO), the scene division unit 31 extracts a portion where the next video information has greatly changed (step S201).
  • the audio / video section extracting section (audio / video section integrating means) 83 determines a content section from the output of the audio section extracting section 81 and the output of the video section extracting section 82.
  • the audio-video section extracting unit 83 determines a content section by adopting, for example, only the time when both the output of the audio section extracting unit 81 and the output of the video section extracting unit 82 indicate that the speaker has changed.
  • the audio / video section extraction unit (audio / video section integration means) 83 determines a content section based on the output of the audio section extraction unit 81 and the output of the video section extraction unit 82 (step S123). For example, the audio / video section extraction unit 83 determines the content section by adopting only the time when both the output of the audio section extraction unit 81 and the output of the video section extraction unit 82 indicate that the speaker has changed.
  • FIG. 8 is a block diagram showing another example of the configuration of the content section extraction means 5 in the embodiment of the document association device of the present invention.
  • Figure 8 shows both audio and video analysis.
  • 5 shows a content section extracting means 5 for extracting a single speaker section of the content by using.
  • the visual feature quantity deriving unit 93 derives the visual feature quantity of the extracted scene.
  • the primary storage unit 94 stores the voice feature and the visual feature and the start time thereof. If the speech feature and the visual feature have already been stored, the speech feature matching unit 95 compares the speech feature input from the speech feature derivation unit 92 with the speech stored in the primary storage unit 94. Comparison with the feature value is performed. Similarly, the visual feature matching unit 96 compares the visual feature input from the visual feature deriving unit 93 with the visual feature stored in the primary storage 94.
  • the scene division unit 91 analyzes the feature amount of the content and divides it into scenes (Step S141).
  • the scene division unit 91 may use the audio feature amount as in the audio division unit 21 shown in FIG. 2, or may use the visual feature as in the person extraction and person characteristic amount derivation unit 32 shown in FIG. Collection may be used. Further, the sum of the voice feature amount and the person feature amount may be calculated. In other words, in order to derive the point in time when the speaker changes, analysis may be performed on the change point of the visual feature in the video and the change point analysis of the sound feature in the voice, and the results of both may be integrated.
  • the voice feature deriving unit 92 derives the voice feature of the extracted scene (step S142).
  • the speech feature amount matching unit 95 compares the speech feature amount input from the speech feature amount derivation unit 92 with the primary feature. A comparison is made with the audio feature amount stored in the storage unit 94.
  • the visual feature matching unit 96 compares the visual feature input from the visual feature deriving unit 93 with the visual feature stored in the primary storage unit 94 (step S146). .
  • the difference between the audio feature amount input from the audio feature amount derivation unit 92 and the audio feature amount stored in the primary storage unit 94 is smaller than a predetermined threshold, or if the visual feature amount derivation unit 93 If the difference between the visual feature amount input from the first and the visual feature amount stored in the primary storage unit 94 is smaller than a predetermined threshold, it is determined that the utterance by the same person has ended.
  • FIG. 10 shows a document section extracting unit 6 according to the embodiment of the document association apparatus of the present invention.
  • the document section extraction means 6 extracts information indicating a document break (hereinafter, “document separation information”) from the document information stored in the document storage means 4 (step S161).
  • the document delimiter information include a line feed (blank line) in the document, a difference in character font, a difference in character color, a character layout, and a description of a speaker's name.
  • the document section extraction means 6 selects an optimal document section extraction method based on the document section information (step S162).
  • the correspondence (table) between the document division information and the method of extracting the document section is stored in a storage unit (not shown).
  • the method of extracting the document section corresponding to the speaker from the document information includes, for example, a method using document format information, a method using a description about a speaker written in the document, and a method using metadata in a structured document. There is a way to do that.
  • the document section extracting means 6 extracts a section (document section) corresponding to each speaker in the document.
  • document information corresponding to the utterance of a single speaker is described. However, if the document information is determined in advance, steps S161 and S162 may be omitted, and the method of extracting the document section corresponding to the document information may be immediately executed.
  • FIG. 11A to FIG. 11D are diagrams showing an example of a method of using document format information in the embodiment of the document association method of the present invention.
  • a blank line is inserted for a comment between speakers. Therefore, the document section extracting means 6 can extract the document section based on the blank line.
  • FIG. 11B a document in a conversation is illustrated. The remarks of the host are displayed in oblique characters. Therefore, the document section extraction unit 6 can extract the document section by identifying the content of the guest's statement and the content of the host's statement.
  • FIG. 11A a blank line is inserted for a comment between speakers. Therefore, the document section extracting means 6 can extract the document section based on the blank line.
  • FIG. 11B a document in a conversation is illustrated. The remarks of the host are displayed in oblique characters. Therefore, the document section extraction unit 6 can extract the document section by identifying the content of the guest's statement and the content of the host's statement.
  • FIG. 11A a blank line is
  • the names of the speakers are displayed in a separate column, and are widely used in drama scripts and minutes. If such information is used, the document section extracting means 6 can easily extract the information on the speaker and the speaker section in terms of document power. It should be noted that the method described with reference to FIGS. 12A to 12C also implements an example of document structure analysis.
  • the section matching degree deriving unit (section matching means) 43 derives the correspondence between the content section and the document section.
  • the section correspondence storage unit 44 stores the correspondence for each section.
  • the section integration unit 45 integrates adjacent sections and associates the content with the document on a one-to-one basis.
  • the output unit 46 outputs the correspondence.
  • the content length regular shading section 41 performs regular length shaping of the content length in each extracted section (step S301).
  • the content includes audio as shown in FIG. 17 (a)
  • a silent part in each section is extracted.
  • the extracted silent parts are removed from each section.
  • the length of each section is proportional to the length of the audio part, and the sum is normalized to be 1.0.
  • FIG. 17 (c) the normalization may be performed in proportion to the mere section length without removing the silent part.
  • the length of each section is proportional to the length of the audio part except for each section, and the sum is 1 0 may be applied.
  • normalization may be performed in proportion to a simple section length.
  • the document length normalizing section 42 normalizes the length of each document section (step S302). For example, the length of each section is set to a length proportional to the document amount (or character amount) included in each section.
  • FIG. 13A shows an example of a result obtained by normalizing both sides.
  • FIG. 16A (a) shows the content information
  • FIG. 16A (b) shows the document information.
  • the section matching degree deriving unit 43 derives an individual correspondence between the content section and the document section (Step S303). For example, it is assumed that the overlap on the regular axis is checked and that there is a corresponding relationship with the most overlapped area. In the example shown in FIG. 16A, the correspondence relationship is, in terms of document information, [l] ⁇ [a], [2] ⁇ [a], [3] ⁇ [b], [4] ⁇ [c], [5] ⁇ [d], [6] ⁇ [f], [7] ⁇ [f].
  • the section correspondence storage unit 44 stores the correspondence for each section derived by the section consistency degree derivation unit 43.
  • the speaker information storage unit 51 records in advance a correspondence between a feature amount (including a voice feature amount or a visual feature amount) for specifying a person and the person.
  • the feature amount is set loosely for person identification.
  • a speaker-specific feature such as a pitch and a pitch related to a specific phoneme or a word is used for each speaker.
  • information such as wording and habit may be used.
  • visual features are used, the shape, positional relationship, etc. of the eyes, nose, and mouth are used as features of the speaker's face.
  • Known features used as face recognition technology or speaker identification technology can also be used as features.
  • the speaker identifying section 52 stores the information of the content section input from the content section extracting means 5 and the feature amount included in the section in the speaker information storage section 51.
  • the speaker (speaker section) in one or a plurality of sections is specified by comparing with the feature amount (step S321).
  • the document speaker information extraction unit 53 extracts information on the speaker (speaker information) from the document by specifying the speaker in one or a plurality of document sections (step S322).
  • step S321 and step S322 may be performed simultaneously, or step S322 may be performed first.
  • the section matching degree deriving unit 54 performs section matching based on the speaker information. That is, the speaker section is associated with the document section (step S323). It operates in this way.
  • the section matching unit 54 shown in FIG. 21 ((a) content information, (b) document information)
  • a method of dynamic programming matching may be introduced! When the accuracy of speaker identification based on content information is low and “Tanaka” is not extracted as illustrated in FIG. 21, “Tanaka” can be skipped and a response can be taken.
  • FIG. 22 ((a) content information, (b) document information) describes an example of section matching processing by section matching degree deriving section 54 when speaker identifying section 52 extracts a plurality of persons as candidates.
  • the area [f] can be associated with the section [7] of the document information by the person information based on the document information. Note that "Takagi” and "Yamashita” do not appear in the document. Also, the section [a] is associated with [1] and [2] because the names of both the powers, which are sections of “Yamamoto” or “Tanaka”, appear in the document information.
  • FIG. 23 is a block diagram showing another example of the configuration of the section correspondence deriving means 7 in the embodiment of the document association device of the present invention.
  • the section correspondence deriving means 7 includes a speech recognition unit 61 that performs speech recognition to generate a candidate text for the input speech, and a candidate text document correspondence unit 62 that associates the candidate text with the document in the document storage unit 4. including.
  • FIG. 24 is a block diagram showing an example of the configuration of the candidate text document corresponding unit 62.
  • the candidate text document correspondence section 62 includes a candidate text word extraction section 71, a document section word extraction section 72, a candidate text Z document section correspondence section 74, and a candidate text Z document section word similarity calculation section 73.
  • the candidate text word extraction unit 71 extracts one or a plurality of words from the candidate text of the section.
  • the intra-document section word extraction unit 72 extracts one or more words in each section.
  • the candidate text Z document section correspondence unit 74 associates each section.
  • the candidate text Z document section word similarity calculation unit 73 calculates the distance within the section.
  • FIG. 25 is a diagram showing the correspondence relation derivation performed by the section correspondence derivation means 7 in the embodiment of the document correspondence method of the present invention. It is a flowchart which shows another example of the output method.
  • FIG. 26 and FIG. 27 are diagrams showing the correspondence between the content information and the document information in the correspondence deriving method. Assume that the content includes audio information.
  • the speech recognition unit 61 receives information on the content section from the content section extraction means 5. Also, content information is input from the content storage means 3. Then, voice information is extracted from the content information, voice recognition is performed, and a candidate text for the input voice is generated (step S341).
  • voice information is extracted from the content information, voice recognition is performed, and a candidate text for the input voice is generated (step S341).
  • any of the following methods is used. May be used.
  • the candidate text document corresponding unit 62 compares a word in the candidate text with a word in the document section. Then, the content section including the matched word or the similar word is associated with the document section. Specifically, the candidate text word extraction unit 71 extracts one or more words used in each content section from the section candidate texts (step S342). The intra-document section word extraction unit 72 extracts one or more words in each document section (step S343). Step S342 and step S343 may be performed simultaneously, or step S343 may be performed first. Next, the candidate text Z document section word similarity calculation unit 73 calculates an intra-section distance for determining the similarity between the word in the content section and the word in the document section (step S344). The candidate text Z document section correspondence unit 74 associates the content section with the document section by comparing the extracted word sets based on the intra-section distance, and outputs the result (step S345). ).
  • FIG. 26 shows an example of the correspondence between the candidate text and the document in the document storage unit 4 by the candidate text document section correspondence unit 74.
  • (A) shows the content section
  • (b) shows the start time of the content section
  • (c) shows the candidate text word
  • (d) shows the word in the document section
  • (e) shows the document section
  • (f) shows the document .
  • each document section (Information communication, speech recognition, semantic information, %), (security, video camera, moving object, %), (experimental, ⁇ ⁇ ⁇ , (Research, ⁇ ⁇ ⁇ ⁇ ) are extracted.
  • Each audiovisual section that is, content section (13:41, 15:41), (15:41, 16:50), (16:50, 20 : 15), (20:15, 21:13), ... power, (voice recognition, semantic information, ...), (information communication, semantic information, ...), (security, ...) , (Research, %) are extracted.
  • Such words may be obtained by simply extracting nouns from the document, or register important words in the dictionary at first glance.
  • it may be extracted by matching words in the dictionary, and by analyzing the frequency of use of words, the importance can be determined. Good.
  • the output unit 8 shown in Fig. 1 outputs the correspondence between the audio or video derived by the section correspondence deriving unit 7 and the document section.
  • the output form As an example of the output form, as shown in FIG. 27 (e), there is a correspondence table in which the time in the content is added to the head of the section of the document.
  • any output form may be used as long as it represents the correspondence between the time information of the content and the document section.
  • the present invention relates to an information presenting apparatus for automatically displaying content and document information by automatically associating the content with the document and the blue report, and for displaying a corresponding portion of the content with text information
  • the present invention can be applied to a multimedia display device for searching and searching, and a multimedia searching device. It is also applicable to applications such as a legislative video browsing device that checks actual contents while referring to the minutes of a meeting, a lecture support system that refers to lecture materials and lecture contents, and an education support system.

Abstract

There is provided a document correlation method including a step (a) for preparing a content containing at least one of the audio information and the video information on a plurality of speakers and a document describing the content of the content; and a step (b) for correlating the content with the document on speaker unit.

Description

明 細 書  Specification
文書対応付け装置、および文書対応付け方法  Document association device and document association method
技術分野  Technical field
[0001] 本発明は、文書対応付け装置、および文書対応付け方法に関し、特に、映像また は音声のようなコンテンツと、コンテンツに関連した文書情報との対応関係を導出す る文書対応付け装置、および文書対応付け方法に関する。  The present invention relates to a document associating device and a document associating method, and more particularly, to a document associating device that derives a correspondence relationship between content such as video or audio and document information related to the content. And a document association method.
背景技術  Background art
[0002] 音声記録または音声付随のビデオ記録の対応部分に文書データを自動的にマツ ビングする方法が知られている。例えば、特開平 7-199379号公報に、音声記録ま たは音声付随のビデオ記録中の音声を音声認識処理によりテキストイ匕し、そのテキス トと文書記憶装置に順序付けられて記憶された文書情報と比較して、両者が同一の 一連の文字を含む場合に同一とみなす方法が提案されている。この際に、自動音声 認識装置が音声をデコードし、デコードテキストが、類似語または語のクラスタの識別 を介して文書情報と照合される。  [0002] A method of automatically documenting document data in a corresponding part of an audio recording or a video recording accompanied by an audio is known. For example, Japanese Unexamined Patent Application Publication No. 7-199379 discloses that a voice in a voice recording or a video accompanying a voice is subjected to text recognition by voice recognition processing, and the text and document information stored in order in a document storage device. In comparison with, a method has been proposed that considers both to be the same if they contain the same set of characters. At this time, the automatic speech recognizer decodes the speech and the decoded text is collated with the document information via identification of similar words or clusters of words.
[0003] また、特開 2000— 270263号公報に、放送番組において、アナウンス原稿と字幕 内容とが極めて類似している場合に、アナウンス原稿に対して音声認識処理を施し、 音声認識結果と提示時間順に配列された字幕文テキストとの対応を導出することで、 始点と終点のタイミング情報を同期点として検出して記録するシステムが提案されて いる。  [0003] Also, in Japanese Patent Application Laid-Open No. 2000-270263, in a broadcast program, when the announcement manuscript and the subtitle content are extremely similar, voice recognition processing is performed on the announcement manuscript, and the speech recognition result and the presentation time are given. A system has been proposed that derives the correspondence between subtitle texts arranged in order, and detects and records timing information of a start point and an end point as a synchronization point.
[0004] さらに、特開平 8— 212190号公報に、音声付随の動画像にシナリオテキストを対応 付ける場合に、シナリオテキストを音声化した場合の無音区間を予測し、予測結果と 音声付随の動画像における音声信号の無音区間とを比較することによって、音声と テキストとを対応付けるシステムが提案されて 、る。  [0004] Furthermore, in Japanese Patent Application Laid-Open No. 8-212190, when associating a scenario text with a moving image accompanied by voice, a silent section when the scenario text is converted to speech is predicted, and the prediction result and the moving image accompanied by voice are predicted. A system for associating a voice with a text by comparing the silent section of the voice signal in the above has been proposed.
[0005] これらの従来の映像または音声と!/、つたコンテンツと文書とを対応付ける文書対応 付け方法の第一の問題点は、音声情報と文書データとの対応の精度が音声認識の 精度に大きく依存しているので、音声認識の精度が十分に得られないときに、音声情 報と文書データの対応関係導出が精度よく行われないということである。 [0006] 上記の特開平 7— 199379号公報ゃ特開 2000— 270263号公報に記載されている 従来の方法では、音声認識処理により音声をテキストに変換した後に、変換されたテ キストと文書データ間で同期をとつている。この結果、音声認識によって出力されたテ キストが誤りを多く含んでいる場合には、文書データとの対応がとれな力つたり、全く 異なった文書部分と対応をとつてしまうなど対応関係に多くの誤りが含まれてしまう。 一般に、音声認識では、 BGMが音声に重畳された場合や、屋外等の高雑音下で記 録された会話のように発話音声以外の背景音が大き!、場合などでは、認識精度は著 しく低下することが知られている。通常の会話においても、マイクロフォンと話し手の 位置関係や、話者の話し方、会話スタイルおよび特性などによって、高い認識精度 が期待できない場合が数多く存在する。会話内容が特定のトピックに限定される場合 には、推定される話題により認識のための辞書を最適に選択するなどの対策によつ て、音声認識の精度をあげることが可能である。しかし、通常、トピック等は事前に推 定できない場合が多ぐその場合、誤った辞書を使用すると音声認識の精度は更に 下がってしまうなどの問題がある。こうした、誤りを多く含んだ音声認識結果にもとづ V、て、音声記録または音声付随のビデオ記録と文書情報の対応付けを行った場合 に、対応付け誤りが多くなり、テキスト同時表示やキーワード検索による頭出しに利用 することが困難になる。 [0005] The first problem of the document correspondence method for associating these conventional video or audio with! /, Itsuto contents and a document is that the accuracy of correspondence between audio information and document data is significantly higher than the accuracy of voice recognition. Therefore, when the accuracy of speech recognition is not sufficiently obtained, the correspondence between the speech information and the document data is not accurately derived. In the conventional method described in the above-mentioned Japanese Patent Application Laid-Open No. 7-199379 and Japanese Patent Application Laid-Open No. 2000-270263, after converting speech into text by speech recognition processing, the converted text and document data are converted. Synchronized between. As a result, if the text output by speech recognition contains a lot of errors, there is a lot of correspondence, such as the ability to correspond to the document data or the correspondence to a completely different document part. Error is included. In general, in speech recognition, the recognition accuracy is remarkable when background music other than the uttered voice is loud, such as when background music is superimposed on the voice, or in conversations recorded under high noise such as outdoors. It is known to decrease. Even in ordinary conversation, there are many cases where high recognition accuracy cannot be expected due to the positional relationship between the microphone and the speaker, the manner of speaking, the conversation style, and the characteristics of the speaker. If the conversation content is limited to a specific topic, it is possible to improve the accuracy of speech recognition by taking measures such as optimally selecting a dictionary for recognition based on the topic to be estimated. However, in general, topics cannot be estimated in advance in many cases. In such a case, if an incorrect dictionary is used, there is a problem that the accuracy of speech recognition is further reduced. Based on the speech recognition results containing many errors, when the voice recording or the video recording accompanied by the voice is correlated with the document information, the number of mapping errors increases, and simultaneous text display and keyword It will be difficult to use it for search cueing.
[0007] 従来の方法の第二の問題として、文書情報が、音声を忠実に再現したものではなく 、内容を簡単にまとめたような文書であった場合には、文書情報と音声情報とを正し く整合できないということがある。たとえば講演における音声情報と、講演者の作成し た説明用の資料や要約文書とを対応付ける場合、音声情報から作成されたテキスト に直接対応する部分が文書中に存在しないため、文書情報と音声情報とを正しく整 合できない。  [0007] As a second problem of the conventional method, when the document information is not a faithful reproduction of the voice but a document whose contents are simply summarized, the document information and the voice information are combined. Sometimes it is not possible to match correctly. For example, when associating audio information in a lecture with explanatory materials or summary documents created by the speaker, there is no part in the document that directly corresponds to the text created from the audio information, so the document information and audio information Cannot be matched correctly.
[0008] 従来の方法の第三の問題として、音声認識を基礎とした整合では、整合の単位が 単語単位となるため、文書内容と音声情報とが完全に一致しないような場合には、同 一の単語の出現によって対応が大きくずれてしまうということである。  [0008] As a third problem of the conventional method, in matching based on speech recognition, since the unit of matching is a word unit, if the document content and the speech information do not completely match, the matching is performed. This means that the appearance of one word greatly deviates the correspondence.
[0009] 関連する技術として、特開 2000-348064号公報 (優先権主張番号: 09Z28872 4、優先権主張国:米国)に、内容情報と話者情報を使用して音声情報を検索するた めの方法および装置が開示されている。この内容情報と話者情報を使用して音声情 報を検索するための方法は、 1つまたは複数の音声ソース力 音声情報を検索する 方法である。少なくとも 1つの内容と 1つの話者制約条件を指定するユーザ照会を受 け取る段階と、前記ユーザ照会を、前記音声ソースの内容索引および話者索引と比 較して、前記ユーザ照会に適合する音声情報を識別する段階とを含む。 [0009] As a related technique, Japanese Patent Application Laid-Open No. 2000-348064 (priority claim number: 09Z288724, priority claim country: United States) discloses a method for searching for speech information using content information and speaker information. A method and apparatus are disclosed. A method for retrieving speech information using the content information and the speaker information is a method for retrieving speech information for one or more speech sources. Receiving a user query specifying at least one content and one speaker constraint; and comparing the user query with the content index and speaker index of the audio source to match the user query. Identifying audio information.
[0010] 関連する技術として、特開 2002-189728号公報に、マルチメディア情報編集装 置、その方法および記録媒体並びにマルチメディア情報配信システムが開示されて いる。このマルチメディア情報編集装置は、マルチメディア情報を編集する。マルチメ ディア情報編集装置は、記憶手段と、音声判別手段と、文書変換手段と、マルチメデ ィァ構造ィ匕手段とを備えたことを特徴とする。記憶手段は、音声、動画像などのマル チメディア情報を記憶する。音声判別手段は、前記記憶手段に記憶されたマルチメ ディア情報に対して音声が付加されているか判別を行う。文書変換手段は、前記音 声判別手段によって音声が付加されていた場合その音声情報を文書情報に変換す る。マルチメディア構造化手段は、前記文書変換手段で変換された文書を言語解析 して、文書とマルチメディア情報とを構造ィ匕して、対応付ける。  As a related technique, Japanese Patent Application Laid-Open No. 2002-189728 discloses a multimedia information editing apparatus, a method and a recording medium, and a multimedia information distribution system. This multimedia information editing device edits multimedia information. The multimedia information editing apparatus is characterized by comprising a storage means, a voice discriminating means, a document converting means, and a multimedia structure deciding means. The storage means stores multimedia information such as audio and moving images. The voice discriminating means determines whether a voice is added to the multimedia information stored in the storage means. The document converting means converts the voice information into document information when the voice is added by the voice discriminating means. The multimedia structuring unit language-analyzes the document converted by the document converting unit, and structures and associates the document with the multimedia information.
[0011] 関連する技術として、特開 2002— 236494号公報に、音声区間判別装置、音声認 識装置、プログラム及び記録媒体の技術が開示されている。この音声区間判別装置 は、音響分析手段と、標準パターン記憶手段と、マッチング手段と、判定手段と、音 声区間判別手段とを備えていることを特徴とする。音響分析手段は、外部から入力さ れた音声を所定周期で音響的に分析し、当該分析結果を基に音響特徴量を求める 。標準パターン記憶手段は、前記入力音声に複数の話者の音声が混在し得る前提 の下、単一話者の音声及び、複数話者の混合音声に対応する標準パターンを記憶 する。マッチング手段は、前記標準パターン記憶手段に記憶された標準パターンと、 前記音響分析手段にて求められた音響特徴量とのマッチングを行う。 [0011] As a related technique, Japanese Patent Application Laid-Open No. 2002-236494 discloses techniques of a speech section discrimination device, a speech recognition device, a program, and a recording medium. This voice section discriminating apparatus is characterized by comprising acoustic analysis means, standard pattern storage means, matching means, judgment means, and voice section discrimination means. The acoustic analysis means acoustically analyzes a voice input from the outside at a predetermined cycle, and obtains an acoustic feature based on the analysis result. The standard pattern storage means stores a standard pattern corresponding to a single speaker's voice and a mixed voice of a plurality of speakers under the premise that voices of a plurality of speakers may be mixed in the input voice. The matching unit performs matching between the standard pattern stored in the standard pattern storage unit and the acoustic feature amount obtained by the acoustic analysis unit.
判定手段は、前記マッチング手段による処理結果に基づき、前記入力音声がいずれ の標準パターンに類似している力を前記所定周期毎に判定する。音声区間判別手 段は、前記判定手段による判定結果に基づき、前記各話者の音声区間を判別すると を備えている。 [0012] 関連する技術として、特開 2002-366552号公報 (優先権主張番号: 09Z96265 9、優先権主張国:米国)に、記録音声を探索し、関連セグメントを検索する方法及び システムが開示されている。これは、データベース内の記録音声を探索する方法であ る。 a)音声認識システムを用いて、前記記録音声をテキストに変換するステップと、 b )情報ェクステンダを用 Vヽて、前記記録音声のフル ·テキスト索引を作成するステップ であって、前記フル'テキスト索引が、前記記録音声内での単語の出現を指し示す複 数のタイムスタンプを含み、 c)フル 'テキスト'サーバにより、前記フル'テキスト索引を 用いて、テキストを探索するステップと、 d)前記探索テキスト、前記フル'テキスト索引 、及び前記記録音声を前記データベースに記憶するステップとを含みる。前記記録 音声の特定の内容が、全部の記録を聴取することなぐ前記フル ·テキスト索引を用 いて再生される。 The determining means determines a force at which the input voice is similar to any of the standard patterns at each of the predetermined cycles based on a processing result by the matching means. The voice section discriminating means includes a step of discriminating a voice section of each speaker based on a result of the determination by the determining means. [0012] As a related technique, Japanese Patent Application Laid-Open No. 2002-366552 (priority claim number: 09Z962659, priority claiming country: United States) discloses a method and system for searching a recorded voice and searching for a related segment. ing. This is a method for searching recorded voices in a database. a) converting the recorded speech to text using a speech recognition system; andb) creating a full-text index of the recorded speech using an information extender, wherein the full-text The index includes a plurality of timestamps indicating the occurrence of a word in the recorded speech; c) searching for text by the full 'text' server using the full 'text index; d) Storing the search text, the full'text index, and the recorded speech in the database. The specific content of the recorded audio is played back using the full text index without listening to the entire recording.
[0013] 関連する技術として、特開平 11— 242669号公報に、文書処理装置の技術が開示 されている。この文書処理装置は、音声入力手段と、抽出手段と、属性生成手段と、 文書記憶手段と指示手段と、出力手段と、添付手段とを備えたことを特徴とする。音 声入力手段は、音声を入力する。抽出手段は、音声入力手段によって入力された音 声から話者を特定するための情報を抽出する。属性生成手段は、前記抽出された情 報と所定の基準情報とを比較して話者属性情報を生成する。文書記憶手段は、文書 を記憶する。指示手段は、入力された音声を添付すべき文書中の位置を指示する。 出力手段は、文書を出力する。添付手段は、前記指示手段によって指示された文書 中の位置の情報と、前記入力された音声と、前記属性生成手段によって生成された 話者属性情報とからなる組情報を前記文書記憶手段に記憶する。  [0013] As a related technique, Japanese Patent Application Laid-Open No. 11-242669 discloses a technique of a document processing apparatus. This document processing apparatus is characterized by comprising voice input means, extraction means, attribute generation means, document storage means, instruction means, output means, and attachment means. The voice input means inputs voice. The extracting means extracts information for specifying the speaker from the voice input by the voice input means. The attribute generating means generates speaker attribute information by comparing the extracted information with predetermined reference information. The document storage means stores a document. The instruction unit indicates a position in the document to which the input voice is to be attached. The output means outputs the document. The attachment means stores, in the document storage means, group information including information on a position in the document designated by the designation means, the input voice, and speaker attribute information generated by the attribute generation means. I do.
発明の開示  Disclosure of the invention
[0014] 本発明の目的は、音声や映像などのコンテンツにおいて定義される有意な区間と 文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方 法を提供することである。  An object of the present invention is to provide a document associating device and a document associating method for accurately associating significant sections defined in content such as audio and video with sections in a document.
[0015] 本発明の他の目的は、コンテンツの状態に影響されずに、コンテンツにおける有意 な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応 付け方法を提供することである。 [0016] 本発明の他の目的は、文書の種類に影響されずに、コンテンツにおける有意な区 間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け 方法を提供することである。 Another object of the present invention is to provide a document associating device and a document associating method for accurately associating significant sections in content with sections in a document without being affected by the state of the content. is there. Another object of the present invention is to provide a document associating device and a document associating method for accurately associating significant sections in content with sections in a document without being affected by the type of document. It is.
[0017] この発明のこれらの目的とそれ以外の目的と利益とは以下の説明と添付図面とによ つて容易に確認することができる。  [0017] These objects, other objects, and advantages of the present invention can be easily confirmed by the following description and the accompanying drawings.
[0018] 上記課題を解決するために、本発明の文書対応付け方法は、 (a)複数の話者が発 話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツ と、前記コンテンツの内容を記述した文書とを準備するステップと、(b)そのコンテンツ とその文書との対応関係を、話者単位で導出するステップとを具備する。  [0018] In order to solve the above problems, the document association method of the present invention includes: (a) a content including at least one of audio information and video information in which a plurality of speakers appear as speakers; A step of preparing a document describing the content of the content; and (b) a step of deriving the correspondence between the content and the document for each speaker.
[0019] 上記の文書対応付け方法において、その(b)ステップは、(bl)そのコンテンツを話 者単位で分割して複数のコンテンツ区間とするステップと、 (b2)その文書を話者単 位で分割して複数の文書区間とするステップと、(b3)その複数のコンテンツ区間とそ の複数の文書区間との対応付けを行うステップとを備える。  In the above document association method, the (b) step includes: (bl) dividing the content into a plurality of content sections by dividing the content into speakers, and (b2) dividing the document into the plurality of content sections. And (b3) associating the plurality of content sections with the plurality of document sections.
[0020] 上記の文書対応付け方法において、その(b2)ステップは、(b21)その複数の話者 の一人力 その複数の話者の他の一人へ発話者が変化した時点をコンテンツ力 抽 出するステップと、(b22)その発話者が変化した時点に基づいて、そのコンテンツを 話者単位で分割するステップとを含む。  [0020] In the above-described document association method, the (b2) step includes: (b21) a single power of the plurality of speakers. And (b22) dividing the content for each speaker based on the point in time when the speaker changes.
[0021] 上記の文書対応付け方法において、その(b21)ステップは、(b211)そのコンテン ッはその音声情報であり、その発話者の音声の変化点をその音声情報力 抽出する ステップを含む。  In the above-described document association method, the step (b21) includes a step (b211) of extracting the change point of the voice of the speaker from the voice information, wherein the content is the voice information.
[0022] 上記の文書対応付け方法において、その(b21)ステップは、(b212)そのコンテン ッはその映像情報であり、その発話者の映像の変化点そのを映像情報力 抽出する ステップを含む。  [0022] In the above-mentioned document association method, the step (b21) includes a step (b212) of extracting the change point of the video of the speaker from the video information, wherein the content is the video information.
[0023] 上記の文書対応付け方法にお!、て、そのコンテンツは、その音声情報とその映像 情報とが同期した音声映像情報である。  In the above document association method, the content is audio-video information in which the audio information and the video information are synchronized.
[0024] 上記の文書対応付け方法において、その(b21)ステップは、(b213)その音声情 報の音特徴の変化点解析を行 、、その発話者が変化した時点を導出するステップを 含む。 [0025] 上記の文書対応付け方法において、その(b21)ステップは、(b214)その映像情 報の視覚的特徴の変化点解析を行 、、その発話者が変化した時点を導出するステ ップを含む。 In the above-described document association method, the step (b21) includes a step (b213) of analyzing a change point of a sound feature of the audio information, and deriving a time point at which the speaker changes. [0025] In the above document matching method, the (b21) step is a step (b214) of analyzing a change point of a visual feature of the video information, and deriving a time point when the speaker changes. including.
[0026] 上記の文書対応付け方法において、その(b21)ステップは、(b215)その映像情 報の視覚的特徴の変化点解析及びその音声情報の音特徴の変化点解析を行い、 双方の結果を統合して、その発話者が変化した時点を導出するステップを含む。  [0026] In the above document matching method, the (b21) step is (b215) performing a change point analysis of a visual feature of the video information and a change point analysis of a sound feature of the audio information. To derive the point in time at which the speaker changed.
[0027] 上記の文書対応付け方法にお!、て、その(b)ステップは、(b4)その文書の構造解 析を行 、、その文書を話者単位で分割するステップを備える。  [0027] In the above document association method, the step (b) includes the step of (b4) analyzing the structure of the document, and dividing the document for each speaker.
[0028] 上記課題を解決するために、本発明のコンピュータプログラム製品は、コンピュータ 上で使用したときに、上記各項の!/、ずれか一項に記載された全てのステップを実行 するプログラムコード手段を有する。  [0028] In order to solve the above-mentioned problems, the computer program product of the present invention, when used on a computer, has the following! /, Having program code means for executing all steps described in any one of the above.
[0029] 上記のプログラムコード手段を有するコンピュータプログラム製品は、コンピュータ により読み取り可能な記憶手段に記憶されている。  [0029] The computer program product having the above program code means is stored in a computer-readable storage means.
[0030] 上記課題を解決するために、本発明の文書対応付け装置は、コンテンツ区間抽出 部と、文書区間抽出部と、区間対応関係導出部とを具備する。コンテンツ区間抽出 部は、複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくと も一方を含むコンテンツについて、そのコンテンツを話者単位で分割して複数のコン テンッ区間を抽出する。文書区間抽出部は、そのコンテンツの内容を記述した文書 を話者単位で分割して複数の文書区間を抽出する。区間対応関係導出部は、その 複数のコンテンツ区間とその複数の文書区間との対応関係を導出する。  [0030] In order to solve the above problem, the document association apparatus of the present invention includes a content section extraction unit, a document section extraction unit, and a section correspondence relation derivation unit. The content section extraction unit extracts a plurality of content sections by dividing the content for each speaker for content including at least one of voice information and video information in which a plurality of speakers appear as speakers. I do. The document section extraction unit extracts a plurality of document sections by dividing the document describing the content of the content into speaker units. The section correspondence deriving unit derives a correspondence between the plurality of content sections and the plurality of document sections.
[0031] 上記の文書対応付け装置において、そのコンテンツはその音声情報である。そのコ ンテンッ区間抽出部は、その音声情報の音特徴を解析してその複数のコンテンツ区 間を抽出する。  [0031] In the above document associating device, the content is the audio information. The content section extraction unit analyzes the sound characteristics of the audio information and extracts the plurality of content sections.
[0032] 上記の文書対応付け装置において、そのコンテンツはその映像情報である。そのコ ンテンッ区間抽出部は、その映像情報の視覚的特徴を解析してその複数のコンテン ッ区間を抽出する。  [0032] In the above document associating device, the content is the video information. The content section extraction unit analyzes the visual characteristics of the video information and extracts the plurality of content sections.
[0033] 上記の文書対応付け装置において、そのコンテンツは、その音声情報とその映像 情報とが同期した音声映像情報である。そのコンテンツ区間抽出部は、その音声情 報の音特徴の解析の結果とその映像情報の視覚的特徴の解析の結果とを統合して その複数のコンテンツ区間を抽出する。 [0033] In the above document associating device, the content is audio-video information in which the audio information and the video information are synchronized. The content section extraction unit outputs the audio information. The result of the analysis of the sound feature of the report and the result of the analysis of the visual feature of the video information are integrated to extract the plurality of content sections.
[0034] 上記の文書対応付け装置において、コンテンツ抽出部は、音声区間抽出部と、映 像区間抽出部と、音声映像区間統合部とを含む。音声区間抽出部は、その音声情 報の音特徴を解析して、その音声情報を話者単位に分割して複数の音声区間を抽 出する。映像区間抽出部は、その映像情報の視覚的特徴を解析して、その映像情 報を話者単位に分割して複数の映像区間を抽出する。音声映像区間統合部は、そ の複数の音声区間に関する複数の音声区間情報と、その複数の映像区間に関する 複数の映像区間情報とに基づいて、その複数のコンテンツ区間を抽出する。  [0034] In the above document associating device, the content extracting unit includes an audio section extracting unit, a video section extracting unit, and an audio / video section integrating unit. The voice section extracting unit analyzes the sound characteristics of the voice information, divides the voice information into speaker units, and extracts a plurality of voice sections. The video section extractor analyzes the visual characteristics of the video information and divides the video information into speaker units to extract a plurality of video sections. The audio-video section integration unit extracts the plurality of content sections based on the plurality of pieces of audio section information regarding the plurality of audio sections and the plurality of pieces of video section information regarding the plurality of video sections.
[0035] 上記の文書対応付け装置において、そのコンテンツ区間抽出部は、そのコンテンツ におけるその複数の話者の一人力 その複数の話者の他の一人へ発話者が変化し た時点としての発話者変化点を抽出して、その複数のコンテンツ区間を抽出する。  [0035] In the above document associating device, the content section extraction unit may determine that one of the plurality of speakers in the content is a speaker at the time when the speaker changes to another one of the plurality of speakers. A change point is extracted, and a plurality of content sections are extracted.
[0036] 上記の文書対応付け装置にお!、て、そのコンテンツはその音声情報を含む。その コンテンツ区間抽出部は、その音声情報における発話の高さ、発話速度、発話の大 きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、その発話者変化 点を抽出する。  [0036] In the above document associating device, the content includes the audio information. The content section extraction unit extracts the speaker change point based on a change in a characteristic of at least one of the prosodic information of the utterance height, the utterance speed, and the utterance size in the audio information.
[0037] 上記の文書対応付け装置において、そのコンテンツはその音声情報を含む。その コンテンツ区間抽出部は、その音声情報における会話形態の変化に基づいて、その 発話者変化点を抽出する。  [0037] In the above document associating device, the content includes the audio information. The content section extraction unit extracts the speaker change point based on a change in the conversation mode in the voice information.
[0038] 上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。その コンテンツ区間抽出部は、その映像情報における人物の視覚的特徴の変化に基づ いて、その発話者変化点を抽出する。 [0038] In the above document associating device, the content includes the video information. The content section extraction unit extracts the speaker change point based on a change in a visual feature of a person in the video information.
[0039] 上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。その コンテンツ区間抽出部は、その映像情報における人物の顔特徴の変化に基づいて、 その発話者変化点を抽出する。 In the above-described document association device, the content includes the video information. The content section extraction unit extracts the speaker change point based on a change in a facial feature of a person in the video information.
[0040] 上記の文書対応付け装置にお!、て、そのコンテンツはその映像情報を含む。その コンテンツ区間抽出部は、その映像情報における人物の衣服の視覚的特徴の変化 に基づいて、その発話者変化点を抽出する。 [0041] 上記の文書対応付け装置において、その文書区間抽出部は、その文書の書式情 報に基づいて、その複数の文書区間を抽出する。 [0040] In the above document associating device, the content includes the video information. The content section extraction unit extracts the speaker change point based on a change in a visual feature of a person's clothing in the video information. [0041] In the above document associating device, the document section extracting unit extracts the plurality of document sections based on the format information of the document.
[0042] 上記の文書対応付け装置において、その文書区間抽出部は、その文書に記入さ れた発話者に関する記述に基づいて、その複数の文書区間を抽出する。  [0042] In the above document associating device, the document section extracting unit extracts the plurality of document sections based on the description about the speaker written in the document.
[0043] 上記の文書対応付け装置において、その文書区間抽出部は、その文書における 構造ィ匕文書のタグ情報に基づいて、その複数の文書区間を抽出する。  [0043] In the above document associating device, the document section extracting unit extracts the plurality of document sections based on the tag information of the structured document in the document.
[0044] 上記の文書対応付け装置において、その文書区間抽出部は、その文書における 会話特徴の変化に基づいて、その複数の文書区間を抽出する。  [0044] In the above document associating device, the document section extracting unit extracts the plurality of document sections based on a change in conversation characteristics in the document.
[0045] 上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコ ンテンッ区間の区間長とその複数の文書区間の文書量とを比較に基づいて、その複 数のコンテンツ区間とその複数の文書区間との対応付けを行う。  [0045] In the above document associating device, the section correspondence deriving unit determines the plurality of content sections based on a comparison between the section length of the plurality of content sections and the document amount of the plurality of document sections. And a plurality of document sections.
[0046] 上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコ ンテンッ区間及びその複数の文書区間に対するダイナミックプログラミングマッチング の実行結果に基づいて、その対応付けを行う。  In the above document associating apparatus, the section correspondence deriving unit performs the association based on the plurality of content sections and the execution result of the dynamic programming matching for the plurality of document sections.
[0047] 上記の文書対応付け装置において、その区間対応関係導出部は、コンテンツ話者 識別部と、文書話者情報抽出部と、区間整合部とを含む。コンテンツ話者識別部は、 その複数のコンテンツ区間のうちの少なくとも一つにおける発話者を特定する。文書 話者情報抽出部は、その複数の文書区間のうちの少なくとも一つにおける発話者を 特定して、その発話者の情報としての話者情報を得る。区間整合部は、その話者情 報に基づいて、その複数のコンテンツ区間とその複数の文書区間との整合を行う。  [0047] In the above document associating device, the section correspondence deriving section includes a content speaker identifying section, a document speaker information extracting section, and a section matching section. The content speaker identification unit specifies a speaker in at least one of the plurality of content sections. The document speaker information extracting unit specifies a speaker in at least one of the plurality of document sections, and obtains speaker information as information of the speaker. The section matching unit matches the plurality of content sections with the plurality of document sections based on the speaker information.
[0048] 上記の文書対応付け装置にお!、て、そのコンテンツ話者識別部は、コンテンツ特 徴量抽出部と、話者情報記憶部と、特徴量整合識別部とを含む。コンテンツ特徴量 抽出部は、その複数のコンテンツ区間のうちの少なくとも一つにおける特徴量を抽出 する。話者情報記憶部は、その特徴量とその発話者とを対応させて記憶する。特徴 量整合識別部は、記憶されたその特徴量と抽出された特徴量との比較に基づいて、 その発話者の識別を行う。  [0048] In the above document associating device, the content speaker identification unit includes a content characteristic amount extraction unit, a speaker information storage unit, and a characteristic amount matching identification unit. The content feature extraction unit extracts a feature in at least one of the plurality of content sections. The speaker information storage unit stores the feature amount and the speaker in association with each other. The feature quantity matching identification unit identifies the speaker based on a comparison between the stored feature quantity and the extracted feature quantity.
[0049] 上記の文書対応付け装置において、  [0049] In the above document associating device,
そのコンテンツ話者識別部は、その音声情報における声の高さ、声の長さ、声の強 さのうちの少なくとも一つの韻律情報の特徴に基づいて、その発話者を特定する 文書対応付け装置。 The content speaker identification unit determines the voice pitch, voice length, and voice strength in the audio information. A document associating device for identifying the speaker based on at least one feature of the prosody information.
[0050] 上記の文書対応付け装置において、そのコンテンツ話者識別部は、その音声情報 における会話形態の表す特徴量に基づ 、て、その発話者を特定する。  [0050] In the above document associating device, the content speaker identification unit specifies the speaker based on the feature amount representing the conversation mode in the audio information.
[0051] 上記の文書対応付け装置において、そのコンテンツ話者識別部は、その映像情報 における人物の視覚的特徴量に基づ 、て、その発話者を特定する。  [0051] In the above document associating device, the content speaker identification unit specifies the speaker based on the visual feature amount of the person in the video information.
[0052] 上記の文書対応付け装置において、そのコンテンツ話者識別部は、その人物の視 覚的特徴として人物の顔特徴を用いる。  [0052] In the above document associating device, the content speaker identification unit uses the facial features of the person as the visual features of the person.
[0053] 上記の文書対応付け装置において、その文書話者情報抽出部は、その文書に記 入された発話者に関する記述に基づいて、その発話者を特定する。  [0053] In the above document associating device, the document speaker information extracting unit specifies the speaker based on the description about the speaker written in the document.
[0054] 上記の文書対応付け装置において、その文書話者情報抽出部は、その文書にお ける構造ィ匕文書のメタデータに基づいて、話者を特定する。  [0054] In the above document associating device, the document speaker information extracting unit specifies the speaker based on the metadata of the structured document in the document.
[0055] 上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区 間の各々における発話者とその複数の文書区間の各々における発話者とがー致す るように、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。  [0055] In the above document associating device, the section matching unit is configured so that a plurality of speakers in each of the plurality of content sections and a plurality of speakers in each of the plurality of document sections match. A content section is associated with a plurality of document sections.
[0056] 上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区 間とその複数の文書区間とに対するダイナミックプログラミングマッチングの実行結果 に基づいて、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。  [0056] In the above document associating device, the section matching unit determines the plurality of content sections and the plurality of document sections based on an execution result of the dynamic programming matching for the plurality of content sections and the plurality of document sections. Correlate with the document section.
[0057] 上記の文書対応付け装置において、そのコンテンツは音声情報を含む。文書対応 付け装置は、その複数のコンテンツ区間における発話内容を抽出して発話テキスト 情報を出力する音声認識部を更に具備する。その区間対応関係導出部は、その発 話テキスト情報とその文書の文書情報との類似度に基づいて、その複数のコンテンツ 区間とその複数の文書区間とを対応付ける。  In the above-described document association device, the content includes audio information. The document associating device further includes a speech recognition unit that extracts speech contents in the plurality of content sections and outputs speech text information. The section correspondence deriving unit associates the plurality of content sections with the plurality of document sections based on the similarity between the uttered text information and the document information of the document.
[0058] 上記の文書対応付け装置において、その区間対応関係導出部は、その発話テキ スト情報で出現する単語とその文書情報で出現する単語との間のダイナミックプログ ラムマッチングの実行結果に基づ 、て、その発話テキスト情報とその文書情報とを整 合させる。  [0058] In the above document associating device, the section correspondence deriving unit is configured to perform a dynamic program matching between a word that appears in the utterance text information and a word that appears in the document information. Then, the utterance text information is matched with the document information.
[0059] 上記の文書対応付け装置において、その区間対応関係導出部は、基本単語抽出 部と、基本単語群類似度導出部とを含む。基本単語抽出部は、その発話テキスト情 報におけるその複数のコンテンツ区間の各々で使用されている一つまたは複数の第[0059] In the above document associating device, the section correspondence deriving unit includes a basic word extraction unit. And a basic word group similarity deriving unit. The basic word extractor may include one or more of the first or plurality of second words used in each of the plurality of content sections in the utterance text information.
1基本単語と、その複数の文書区間の各々で使用されている一つまたは複数の第 2 基本単語とをそれぞれ抽出する。基本単語群類似度導出部は、その複数の第 1基本 単語と、その複数の第 2基本単語との間の類似度を測定する。その区間対応関係導 出部は、その類似度に基づいて、その対応関係を導出する。 One basic word and one or more second basic words used in each of the plurality of document sections are extracted. The basic word group similarity deriving unit measures the similarity between the plurality of first basic words and the plurality of second basic words. The section correspondence deriving unit derives the correspondence based on the similarity.
[0060] 上記の文書対応付け装置において、その区間対応関係導出部は、その類似度を、 ダイナミックプログラミングマッチングにより対応付けることによって対応関係を導出す る。 [0060] In the above document associating device, the section correspondence deriving unit derives a correspondence by associating the similarities by dynamic programming matching.
[0061] 上記の文書対応付け装置において、そのコンテンツを入力するコンテンツ入力部と 、そのコンテンツを記憶するコンテンツ記憶部と、その文書情報を入力する文書入力 部と、その文書を記憶する文書記憶部と、その対応関係に関する情報を出力する出 力部とを更に具備する。  [0061] In the above document associating device, a content input unit for inputting the content, a content storage unit for storing the content, a document input unit for inputting the document information, and a document storage unit for storing the document And an output unit for outputting information relating to the correspondence.
[0062] 本発明によれば、 BGMの影響、ノイズなどの影響、発話者の発話スタイル、集音環 境等の影響によって、音声認識の精度が十分に得られないときでも、精度よくコンテ ンッの有意な区間と文書中の区間の対応付けを行うことができる。その理由は、音声 または映像といったコンテンツと文書区間との整合を、音声認識に比べて容易である 話者単位 (話者の変化した部分)にもとづいて行っているためである。話者が代わつ た点の認識は、話者の話している内容を認識するのに比べて、違いを認識するだけ でよいので、ノイズや集音の状態に対して頑強である。また、音声の内容ではなぐ話 者にフォーカスして対応付けを行うため、視覚的情報も活用することができ、話者変 化点抽出を視覚的情報にもとづいて行う場合には、集音状態には依存しない対応付 けを行うことができる。また、本発明によれば、対応付ける文書が音声または映像中 の会話を忠実に表していない場合でも、対応付けを行うことができる。その理由は、 単語レベルでの整合を取って ヽな 、ので、話者や話題ごとの比較的長い区間での 対応付けが実現でき、個々の会話の内容を詳細に対応付ける必要がないためである 図面の簡単な説明 [図 1]図 1は、本発明の文書対応付け装置の実施の形態の構成を示す図である。 [0062] According to the present invention, even when the accuracy of speech recognition is not sufficiently obtained due to the influence of BGM, the influence of noise, the utterance style of the speaker, the sound collecting environment, and the like, the content can be accurately obtained. Can be associated with a section in the document. The reason is that the matching between the content such as audio or video and the document section is performed based on the speaker unit (the changed part of the speaker), which is easier than speech recognition. Recognition of a point where a speaker has changed is more robust to noise and sound collection because it only needs to recognize differences compared to recognizing what the speaker is talking about. Also, since the correspondence is focused on the speaker who is not the content of the voice, visual information can also be used, and if the speaker change point is extracted based on the visual information, the sound collection state Correspondence that does not depend on can be performed. Further, according to the present invention, even when a document to be associated does not faithfully represent a conversation in audio or video, the association can be performed. The reason is that since matching at the word level is not possible, it is possible to realize correspondence between speakers and topics in relatively long sections, and it is not necessary to make detailed correspondences between individual conversation contents. BRIEF DESCRIPTION OF THE FIGURES FIG. 1 is a diagram showing a configuration of an embodiment of a document association device of the present invention.
[図 2]図 2は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の構成の一例を示すブロック図である。  FIG. 2 is a block diagram showing an example of a configuration of a content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 3]図 3は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽 出手段 5の動作の一例を示すフローチャートである。  FIG. 3 is a flowchart showing an example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention.
[図 4]図 4は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の構成の他の一例を示すブロック図である。  FIG. 4 is a block diagram showing another example of the configuration of the content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 5]図 5は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽 出手段 5の動作の他の一例を示すフローチャートである。  FIG. 5 is a flowchart showing another example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention.
[図 6]図 6は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の構成の更に他の一例を示すブロック図である。  FIG. 6 is a block diagram showing still another example of the configuration of the content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 7]図 7は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の動作の更に他の一例を示すフローチャートである。  FIG. 7 is a flowchart showing yet another example of the operation of the content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 8]図 8は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の構成の別の一例を示すブロック図である。 FIG. 8 is a block diagram showing another example of the configuration of the content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 9]図 9は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽 出手段 5の動作の別の一例を示すフローチャートである。  FIG. 9 is a flowchart showing another example of the operation of the content section extracting means 5 in the embodiment of the document association device of the present invention.
[図 10]図 10は、本発明の文書対応付け装置の実施の形態における文書区間抽出手 段 6の動作の一例を示すフローチャートである。  FIG. 10 is a flowchart showing an example of the operation of the document section extraction means 6 in the embodiment of the document association device of the present invention.
[図 11A]図 11A—図 11Dは、本発明の文書対応付け方法の実施の形態における文 書の書式情報を利用する方法の一例を示す図である。  FIG. 11A to FIG. 11D are diagrams showing an example of a method using document format information in the embodiment of the document association method of the present invention.
[図 11B]図 11Bは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の一例を示す図である。  FIG. 11B is a diagram showing an example of a method of using document format information in the embodiment of the document association method of the present invention.
[図 11C]図 11Cは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の一例を示す図である。  FIG. 11C is a diagram showing an example of a method of using document format information in the embodiment of the document association method of the present invention.
[図 11D]図 11Dは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の一例を示す図である。  FIG. 11D is a diagram showing an example of a method of using document format information in the embodiment of the document association method of the present invention.
[図 12A]図 12Aは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の他の一例を示す図である。 [FIG. 12A] FIG. 12A is a diagram showing a format of a document according to an embodiment of the document association method of the present invention. FIG. 9 is a diagram illustrating another example of a method of using information.
[図 12B]図 12Bは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の他の一例を示す図である。  FIG. 12B is a diagram showing another example of a method for using document format information in the embodiment of the document association method of the present invention.
[図 12C]図 12Cは、本発明の文書対応付け方法の実施の形態における文書の書式 情報を利用する方法の他の一例を示す図である。  [FIG. 12C] FIG. 12C is a diagram showing another example of a method of using document format information in the embodiment of the document association method of the present invention.
[図 13]図 13は、本発明の文書対応付け方法の実施の形態における文書の書式情報 を利用する方法の更に他の一例を示す図である。  FIG. 13 is a diagram showing still another example of a method using document format information in the embodiment of the document association method of the present invention.
[図 14]図 14は、本発明の文書対応付け装置の実施の形態における区間対応関係導 出手段 7の構成の一例を示すブロック図である。  [FIG. 14] FIG. 14 is a block diagram showing an example of the configuration of the section correspondence relation deriving means 7 in the embodiment of the document association device of the present invention.
[図 15]図 15は、本発明の文書対応付け方法の実施の形態における区間対応関係導 出手段 7が実行する対応関係導出方法の一例を示すフローチャートである。  FIG. 15 is a flowchart showing an example of a correspondence deriving method executed by the section correspondence deriving means 7 in the embodiment of the document associating method of the present invention.
圆 16A]図 16Aは、対応関係導出方法におけるコンテンツ情報と文書情報との対応 関係を示す図である。 [16A] FIG. 16A is a diagram showing the correspondence between content information and document information in the correspondence derivation method.
圆 16B]図 16Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応 関係を示す図である。 [16B] FIG. 16B is a diagram showing the correspondence between the content information and the document information in the correspondence deriving method.
[図 17]図 17は、対応関係導出方法における正規ィ匕を説明する図である。  [FIG. 17] FIG. 17 is a diagram illustrating normalization in the correspondence deriving method.
圆 18A]図 18Aは、対応関係導出方法におけるコンテンツ情報と文書情報との対応 関係を示す図である。 [18A] FIG. 18A is a diagram showing the correspondence between content information and document information in the correspondence derivation method.
圆 18B]図 18Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応 関係を示す図である。 [18B] FIG. 18B is a diagram showing the correspondence between the content information and the document information in the correspondence deriving method.
[図 19]図 19は、本発明の文書対応付け装置の実施の形態における区間対応関係導 出手段 7の構成の他の一例を示すブロック図である。  FIG. 19 is a block diagram showing another example of the configuration of the section correspondence relationship deriving means 7 in the embodiment of the document association device of the present invention.
[図 20]図 20は、本発明の文書対応付け方法の実施の形態における区間対応関係導 出手段 7が実行する対応関係導出方法の他の一例を示すフローチャートである。 圆 21]図 21は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係 を示す図である。  FIG. 20 is a flowchart showing another example of the correspondence derivation method executed by the section correspondence derivation means 7 in the embodiment of the document association method of the present invention. [21] FIG. 21 is a diagram showing the correspondence between content information and document information in the correspondence deriving method.
[図 22]図 22は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係 を示す図である。 [図 23]図 23は、本発明の文書対応付け装置の実施の形態における区間対応関係導 出手段 7の構成の別の一例を示すブロック図である。 FIG. 22 is a diagram showing a correspondence between content information and document information in a correspondence derivation method. FIG. 23 is a block diagram showing another example of the configuration of the section correspondence relation deriving means 7 in the embodiment of the document association device of the present invention.
[図 24]図 24は、候補テキスト文書対応部 62の構成の一例を示すブロック図である。  FIG. 24 is a block diagram showing an example of a configuration of a candidate text document corresponding unit 62.
[図 25]図 25は、本発明の文書対応付け方法の実施の形態における区間対応関係導 出手段 7が実行する対応関係導出方法の別の一例を示すフローチャートである。  FIG. 25 is a flowchart showing another example of the correspondence deriving method executed by the section correspondence deriving means 7 in the embodiment of the document associating method of the present invention.
[図 26]図 26は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係 を示す図である。  FIG. 26 is a diagram showing a correspondence between content information and document information in a correspondence deriving method.
[図 27]図 27は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係 を示す図である。  FIG. 27 is a diagram showing a correspondence between content information and document information in a correspondence derivation method.
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0064] 以下、本発明の文書対応付け装置、および文書対応付け方法の実施の形態につ いて添付図面を参照して詳細に説明する。  Hereinafter, embodiments of a document association apparatus and a document association method according to the present invention will be described in detail with reference to the accompanying drawings.
[0065] 本発明の文書対応付け装置の実施の形態の構成について説明する。  The configuration of the embodiment of the document association apparatus of the present invention will be described.
図 1は、本発明の文書対応付け装置の実施の形態の構成を示す図である。文書対 応付け装置 10は、コンテンツ入力手段 (コンテンツ入力部) 1と、文書入力手段 (文書 入力部) 2と、コンテンツ記憶手段 (コンテンツ記憶部) 3と、文書記憶手段 (文書記憶 部) 4と、コンテンツ区間抽出手段 (コンテンツ区間抽出部) 5と、文書区間抽出手段( 文書区間抽出部) 6と、区間対応関係導出手段(区間対応関係導出部) 7と、出力手 段(出力部) 8とを具備する。コンテンツ入力手段 1は、音声や映像などの情報 (デー タ)を含むコンテンツを入力する。文書入力手段 2は、コンテンツに関連する文書を入 力する。コンテンツ記憶手段 3は、コンテンツ入力手段 1から得られたコンテンツを記 憶する。文書記憶手段 4は、文書入力手段 2から得られた文書を記憶する。コンテン ッ区間抽出手段 5は、コンテンツより単一話者区間を抽出する。文書区間抽出手段 6 は、文書から単一話者区間の抽出を行う。区間対応関係導出手段 7は、コンテンツ区 間抽出手段 5が抽出したコンテンツ区間と文書区間抽出手段 6が抽出した文書区間 との対応関係を導出する。出力手段 8は、区間対応関係導出手段 7が導出した対応 関係を出力する。  FIG. 1 is a diagram showing a configuration of an embodiment of a document association device of the present invention. The document associating device 10 includes a content input unit (content input unit) 1, a document input unit (document input unit) 2, a content storage unit (content storage unit) 3, and a document storage unit (document storage unit) 4. Content section extracting means (content section extracting section) 5, document section extracting means (document section extracting section) 6, section correspondence deriving means (section correspondence deriving section) 7, output means (output section) 8 is provided. The content input means 1 inputs content including information (data) such as audio and video. The document input means 2 inputs a document related to the content. The content storage means 3 stores the content obtained from the content input means 1. The document storage means 4 stores the document obtained from the document input means 2. Content section extraction means 5 extracts a single speaker section from the content. The document section extracting means 6 extracts a single speaker section from a document. The section correspondence deriving means 7 derives a correspondence between the content section extracted by the content section extracting means 5 and the document section extracted by the document section extracting means 6. The output means 8 outputs the correspondence derived by the section correspondence deriving means 7.
[0066] コンテンツ入力手段 1は、対象となるコンテンツを入力するためのものである。コンテ ンッ入力手段 1は、例えば、ビデオカメラやマイクロフォンである。ここで、コンテンツ は、映像情報、音声情報または音声情報が付随した映像情報に例示される。コンテ ンッ入力手段 1は、ビデオテープのような記録媒体に記録された映像情報または音 声情報を読み込んで出力する映像再生機や録音再生機のようなものであってもよい [0066] The content input means 1 is for inputting target content. Conte The input means 1 is, for example, a video camera or a microphone. Here, the content is exemplified by video information, audio information, or video information accompanied by audio information. The content input means 1 may be a device such as a video player or a recording player that reads and outputs video information or audio information recorded on a recording medium such as a video tape.
[0067] 文書入力手段 2は、コンテンツに関連する文書を入力するためのものである。文書 入力部 2は、例えば、キーボードやペン入力デバイス、スキャナのようなテキスト入力 機器である。文書入力部 2は、文書作成ソフトウェアを用いて作成した文書データを 読み込む入力機器であってもよ 、。 [0067] The document input means 2 is for inputting a document related to the content. The document input unit 2 is, for example, a text input device such as a keyboard, a pen input device, and a scanner. The document input unit 2 may be an input device that reads document data created using document creation software.
[0068] コンテンツ記憶手段 3は、例えば、コンテンツ入力手段 1からのコンテンツを記録す る内部記憶装置または外部記憶装置である。コンテンツ記憶手段 3で用いられる記 憶媒体は、 RAM, CD-ROM, DVD,フラッシュメモリ、ハードディスクに例示される  [0068] The content storage means 3 is, for example, an internal storage device or an external storage device for recording the content from the content input means 1. The storage medium used in the content storage means 3 is exemplified by RAM, CD-ROM, DVD, flash memory, and hard disk
[0069] 文書記憶手段 4は、文書入力手段 2からの文書を記録する内部記憶装置または外 部記憶装置である。文書記憶手段 4で用いられる記録媒体は、 RAM, CD-ROM, DVD,フラッシュメモリ、ハードディスクに例示される。 [0069] The document storage unit 4 is an internal storage device or an external storage device that records the document from the document input unit 2. Recording media used in the document storage means 4 are exemplified by RAM, CD-ROM, DVD, flash memory, and hard disk.
[0070] コンテンツ区間抽出手段 5は、コンテンツ記憶手段 3に記憶されたコンテンツ (情報) を話者毎に区間分割し、単一話者によるコンテンツ区間の抽出を行う。単一話者によ るコンテンツ区間(以下、「単一話者区間」ともいう)は、話者が交替した時点力も次に 話者が交替するまでの区間である。単一話者区間は、区間内では発話者が単一で ありかつ隣接する区間での発話者が異なるように抽出される。コンテンツ区間抽出手 段 5が抽出する単一話者区間は、誤りを含まないことが望ましいが、コンテンツ区間 抽出の自動化を行ったために誤りを含んでしまっても構わな!/、。  [0070] The content section extraction means 5 divides the content (information) stored in the content storage means 3 into sections for each speaker, and extracts a content section by a single speaker. A single-speaker content section (hereinafter, also referred to as a “single-speaker section”) is a section in which the power at the time the speaker is changed and the next speaker is also changed. A single-speaker section is extracted such that a single speaker is included in the section and speakers in adjacent sections are different. It is desirable that the single-speaker section extracted by the content section extraction means 5 does not include an error, but may include an error due to automation of content section extraction!
[0071] 文書区間抽出手段 6は、文書記憶手段 3に記憶された文書から、各発話者に対応 した区間 (文書区間)の抽出を行う。抽出された文書区間は、単一話者の発言に対応 する文書情報を記述する。文書区間抽出手段 6は、例えば、文書の書式情報を使う 方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書にお けるメタデータを利用する方法を用いて文書区間の抽出を行う。 [0072] 区間対応関係導出手段 7は、コンテンツ区間抽出手段 5が抽出したコンテンツ区間 と文書区間抽出手段 6が抽出した文書区間との対応関係を導出して、出力手段 8に 出力する。出力手段 8は、その対応関係を表示装置、プリンタ、内部記憶装置、外部 記憶装置などに表示、出力、格納する。 The document section extraction means 6 extracts a section (document section) corresponding to each speaker from the document stored in the document storage means 3. The extracted document section describes the document information corresponding to the utterance of a single speaker. The document section extraction means 6 can be used to extract the document section by using, for example, a method using the format information of the document, a method using the description about the speaker written in the document, and a method using the metadata in the structured document. Perform the extraction. The section correspondence deriving means 7 derives the correspondence between the content section extracted by the content section extracting means 5 and the document section extracted by the document section extracting means 6, and outputs it to the output means 8. The output unit 8 displays, outputs, and stores the correspondence on a display device, a printer, an internal storage device, an external storage device, or the like.
[0073] 文書対応付け装置 10は、コンピュータで実現される場合、コンテンツ区間抽出手段 5、文書区間抽出手段 6および区間対応関係導出手段 7は、コンピュータの演算処 理装置 (例示: CPU)と、各手段 5, 6, 7の機能を実現するためのプログラムとで実現 可能である。  When the document associating device 10 is realized by a computer, the content section extracting means 5, the document section extracting means 6, and the section correspondence deriving means 7 include a computer processing device (for example, CPU), It can be realized with a program for realizing the functions of the means 5, 6, and 7.
[0074] 図 2は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の構成の一例を示すブロック図である。コンテンツ区間抽出手段 5は、音声分割 部 21と、音声特徴量導出部 22と、一次記憶部 23と、音声特徴量整合部 24と、出力 部 25とを含む。音声分割部 21は、コンテンツ記憶手段 3から読み出されたコンテンツ 力も無音区間を抽出して音声の第一の分割を行う。音声特徴量導出部 22は、第一 の分割によって得られた第一の音声区間に関して音声特徴量を導出する。一次記 憶部 23は、第一の音声区間の開始時間と音声特徴量を記憶する。音声特徴量整合 部 24は、音声特徴量導出部 22が導出した音声特徴量と、一次記憶部 23に記憶さ れていた音声特徴量との比較を行う。出力部 25は、音声特徴量整合部 24の処理結 果を区間対応関係導出手段 7に出力する。  FIG. 2 is a block diagram showing an example of a configuration of the content section extraction means 5 in the embodiment of the document association device of the present invention. The content section extracting means 5 includes a voice dividing unit 21, a voice feature deriving unit 22, a primary storage unit 23, a voice feature matching unit 24, and an output unit 25. The audio division unit 21 performs the first division of the audio by extracting the silent section also from the content read from the content storage unit 3. The voice feature deriving unit 22 derives a voice feature for the first voice section obtained by the first division. The primary storage unit 23 stores the start time of the first voice section and the voice feature amount. The audio feature amount matching unit 24 compares the audio feature amount derived by the audio feature amount derivation unit 22 with the audio feature amount stored in the primary storage unit 23. The output unit 25 outputs the processing result of the speech feature matching unit 24 to the section correspondence deriving unit 7.
[0075] 本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段 5の動 作の一例について説明する。図 3は、本発明の文書対応付け方法の実施の形態に おけるコンテンツ区間抽出手段 5の動作の一例を示すフローチャートである。図 3は、 図 2に示されたしている。ここでは、コンテンツが音声を含む映像であり、コンテンツ区 間抽出に音声解析を用いた場合を例に説明する。  An example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention will be described. FIG. 3 is a flowchart showing an example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention. Figure 3 shows what is shown in Figure 2. Here, a case where the content is a video including audio and audio analysis is used to extract the content interval will be described as an example.
[0076] 音声分割部 21は、音声の第一の分割を行う (ステップ S101)。すなわち、音声分割 部 21は、音声の第一の分割として、入力映像の無音区間を抽出し、 2つの無音区間 の間の音声区間を検出する。無音区間は、入力映像の音声トラックもしくは入力音声 の音声パワーの測定により抽出される。音声特徴量導出部 22は、音声の第一の分 割によつて得られた第一の音声区間に関して、音声特徴量を導出する (ステップ S10 2)。音声特徴量としては、区間内の音声の平均基本周波数、平均発話時間長、平 均音声パワーが例示される。一次記憶部 23は、音声特徴量導出部 22が音声特徴 量を導出したときに、その第一の音声区間の開始時間と音声特徴量とが記憶されて いる力否かを判定する (ステップ S103)。その第一の音声区間の開始時間と音声特 徴量とが記憶されていない場合、一次記憶部 23は、その第一の音声区間の開始時 間と音声特徴量を記憶する (ステップ S 104)。 The voice division unit 21 performs the first division of the voice (Step S101). That is, the audio division unit 21 extracts a silent section of the input video as the first division of the audio, and detects an audio section between the two silent sections. The silent section is extracted by measuring the audio track of the input video or the audio power of the input audio. The speech feature deriving unit 22 derives speech features for the first speech section obtained by the first segmentation of the speech (step S10). 2). Examples of the audio feature amount include an average fundamental frequency, an average speech time length, and an average audio power of the audio in the section. When the voice feature amount deriving unit 22 derives the voice feature amount, the primary storage unit 23 determines whether or not the start time of the first voice section and the voice feature amount are stored (step S103). ). When the start time of the first voice section and the voice feature amount are not stored, the primary storage unit 23 stores the start time of the first voice section and the voice feature amount (step S104). .
[0077] 既にその第一の音声区間の開始時間と音声特徴量とが記憶されている場合、音声 特徴量整合部 24は、音声特徴量導出部 22が導出した新規音声特徴量と、一次記 憶部 23に記憶されている音声特徴量との比較を行う(ステップ S 105)。両区間の音 声特徴量が、あらかじめ設定した閾値より小さい (類似している)場合、音声特徴量整 合部 24は、同一人物による発話が継続していると判定する (ステップ S 106 : YES)。 音声分割部 21は、音声データが終了していない場合 (ステップ S 109 : NO)、次の無 音区間までの音声情報を抽出する (ステップ S101)。  If the start time of the first voice section and the voice feature have already been stored, the voice feature matching unit 24 determines whether the new voice feature derived by the voice feature A comparison is made with the audio feature amount stored in the storage unit 23 (step S105). If the voice features of both sections are smaller than (similar to) a preset threshold, the voice feature matching unit 24 determines that the utterance by the same person is continuing (step S106: YES). ). If the audio data has not ended (step S109: NO), the audio dividing unit 21 extracts audio information up to the next silent section (step S101).
両区間の音声特徴量が異なっている場合 (ステップ S 106: NO)、音声特徴量整合 部 24は、音声の発話者が変化したと判定する。出力部 25は、一次記憶部 23中に記 憶されている開始時間と、現在の音声区間の開始時間の間の区間を単一話者の発 話区間として出力する (ステップ S107)。すなわち、音特徴の変化点解析により、単 一話者の発話区間が検出される。同時に、一次記憶部 23は、音声特徴量と開始時 間を新規に得られたものに更新する (ステップ S108)。音声分割部 21は、音声デー タが終了していない場合 (ステップ S109 :NO)、引き続き次の音声の無音区間を抽 出する (ステップ S 101)。  If the voice features of the two sections are different (step S106: NO), the voice feature matching unit 24 determines that the speaker of the voice has changed. The output unit 25 outputs a section between the start time stored in the primary storage unit 23 and the start time of the current voice section as a speech section of a single speaker (step S107). That is, the utterance section of the single speaker is detected by analyzing the change point of the sound feature. At the same time, the primary storage unit 23 updates the voice feature amount and the start time to those newly obtained (step S108). If the audio data has not ended (step S109: NO), the audio dividing unit 21 continuously extracts a silent section of the next audio (step S101).
[0078] 以上の処理が、音声データが終了するまで継続される。なお、音声特徴量として、 ここでは、声の高さ、声の長さ、声の大きさのような韻律情報の特徴の変化 (音声特徴 量の変化の一例)を得るために、平均基本周波数、平均発話時間長、平均音声パヮ 一を用いている。しかし、韻律情報を表す別の尺度を用いてもよい。また、言い回し や口癖といった会話形態の特徴量を利用してもよい。その場合、少なくとも一つの韻 律情報の特徴の変化を用いればょ 、。  The above processing is continued until the audio data ends. Here, the average fundamental frequency is used to obtain changes in the characteristics of prosody information such as voice pitch, voice length, and voice loudness (an example of changes in voice characteristics). , The average speech time length, and the average speech rate. However, another measure representing prosody information may be used. Also, conversational features such as wording and habits may be used. In that case, at least one change in the characteristics of the prosodic information should be used.
[0079] また、ここでは、コンテンツ区間抽出手段 5は、音声区間における音声特徴量の類 似度をもとに発話者の変化点を検出して話者区間を特定する。話者の識別を行って いるのではなぐ話者の変化した点を検出していることで、話者識別や音声認識と比 較して高精度に話者区間を検出できる。もちろん、コンテンツ区間抽出手段 5は、各 時間における音声特徴量から、発話者の特定を行い、話者識別結果から話者区間 を抽出してもよい。 [0079] Further, here, the content section extraction means 5 performs the classification of the speech feature amount in the speech section. A change point of a speaker is detected based on the similarity, and a speaker section is specified. By detecting the point at which the speaker has changed rather than identifying the speaker, the speaker section can be detected with higher accuracy compared to speaker identification and speech recognition. Of course, the content section extraction means 5 may specify the speaker from the voice feature amount at each time and extract the speaker section from the speaker identification result.
[0080] 図 4は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の構成の他の一例を示すブロック図である。コンテンツ区間抽出手段 5は、シー ン分割部 31と、人物抽出および人物特徴量導出部 32と、一次記憶部 33と、人物特 徴量整合部 34と、出力部 35とを含む。シーン分割部 31は、コンテンツ記憶手段 3か ら読み出されたコンテンツ力 シーンチェンジを検出することによって連続したフレー ムで構成される第一の映像区間を抽出する。人物抽出および人物特徴量導出部 32 は、第一の映像区間に関して人物特徴量を導出する。一次記憶部 33は、第一の映 像区間の開始時間と人物特徴量を記憶する。人物特徴量整合部 34は、人物特徴量 導出部 32が導出した人物特徴量と人物特徴量および開始時間記憶部 33に記憶さ れている人物特徴量との比較を行う。出力部 35は、人物特徴量整合部 34の処理結 果を区間対応関係導出手段 7に出力する。  FIG. 4 is a block diagram showing another example of the configuration of the content section extracting means 5 in the embodiment of the document association device of the present invention. The content section extracting means 5 includes a scene dividing unit 31, a person extracting and person characteristic amount deriving unit 32, a primary storage unit 33, a person characteristic amount matching unit 34, and an output unit 35. The scene division unit 31 extracts a first video section composed of continuous frames by detecting a content change scene read from the content storage unit 3. The person extraction and person feature deriving unit 32 derives a person feature for the first video section. The primary storage unit 33 stores the start time of the first video section and the person feature. The person feature matching unit 34 compares the person feature derived by the person feature deriving unit 32 with the person feature and the person feature stored in the start time storage unit 33. The output unit 35 outputs the processing result of the person feature matching unit 34 to the section correspondence deriving means 7.
[0081] 本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段 5の動 作の他の一例について説明する。図 5は、本発明の文書対応付け方法の実施の形 態におけるコンテンツ区間抽出手段 5の動作の他の一例を示すフローチャートである 。ここでは、入力として映像情報を想定し、会話中の発話者が映像中に映っていると いうことを仮定して話者区間の導出を行う場合を例にする。  [0081] Another example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention will be described. FIG. 5 is a flowchart showing another example of the operation of the content section extracting means 5 in the embodiment of the document association method of the present invention. Here, as an example, a case where video information is assumed as an input, and a speaker section is derived on the assumption that a speaker in a conversation is reflected in the video.
[0082] シーン分割部 31は、入力映像のフレーム間の差分を測定して映像情報が大きく変 化した部分を検出し、検出結果にもとづいて視覚的に連続したフレームで構成される 第一の映像区間を抽出する (ステップ S 201)。人物抽出および人物特徴量導出部 3 2は、映像中に映っている人物領域を抽出し、人物領域に対して映像処理を施して 人物特徴量を導出する (ステップ S202)。人物領域抽出の方法としては、映像中の 動物体が人物のみである場合に、背景差分法として監視の分野では広く使われて ヽ る方法である前フレームとの差分値が特定値以上の領域を人物領域として採用する 方法が例示される。人物の特徴量としては、顔の形状等の詳細に記述されている顔 特徴量、人物全体の色の分布や模様及び境界の形状を記述した低次の視覚特徴 量に例示される。色の分布等や模様を利用することにより、利用者の着ている服の特 徴 (人物の衣服の視覚的特徴)を考慮に入れることができるので、単純な会議等での 人物変化の抽出には十分適用可能である。 [0082] The scene division unit 31 measures a difference between frames of the input video to detect a portion where the video information has greatly changed, and, based on the detection result, configures a first visually composed frame. A video section is extracted (step S201). The person extraction and person feature value deriving unit 32 extracts a person region appearing in the video and performs image processing on the person region to derive a person feature value (step S202). As a method of extracting a person region, when the moving object in the video is only a person, the difference between the previous frame and the background difference method, which is a method widely used in the field of surveillance, is a specific value or more. Adopt as a person area A method is illustrated. Examples of the feature amount of a person include a face feature amount that is described in detail, such as the shape of a face, and a low-order visual feature amount that describes the color distribution, pattern, and boundary shape of the entire person. By using the color distribution etc. and patterns, it is possible to take into account the characteristics of the clothes worn by the user (the visual characteristics of the clothes of the person), and thus to extract changes in the person in simple meetings, etc. Is fully applicable.
[0083] 人物特徴量および開始時間記憶部 33は、人物抽出および人物特徴両導出部 32 が人物特徴量を導出したときに、その第一の映像区間の開始時間と人物特徴量が 記憶されている力否かを判定する (ステップ S203)。その第一の映像区間の開始時 間と人物特徴量が記憶されていない場合 (ステップ S203 : NO)、その第一の映像区 間の開始時間と人物特徴量を記憶する (ステップ S204)。すなわち、映像中の視覚 的特徴の変化点解析により、第一の映像区間が検出される。既にその第一の映像区 間の開始時間と人物特徴量が記憶されて ヽる場合 (ステップ S203: YES)、人物特 徴量整合部 34は、人物抽出および人物特徴量導出部 32が導出した新規人物特徴 量と、人物特徴量および開始時間記憶部 33に記憶されて 、る人物特徴量との比較 を行う(ステップ S205)。そして、人物特徴量整合部 34は、両区間の人物特徴量が あらかじめ設定した閾値より類似している場合、同一人物による発話が継続している と判定する (ステップ S 206 : YES)。シーン分割部 31は、映像データが終了していな い場合 (ステップ S 209 : NO)、次の映像情報が大きく変化した部分を抽出する (ステ ップ S 201)。  [0083] The person feature amount and start time storage unit 33 stores the start time and the person feature amount of the first video section when the person extraction and person feature derivation unit 32 derives the person feature amount. It is determined whether or not the force is present (step S203). If the start time of the first video section and the person feature are not stored (step S203: NO), the start time and the person feature of the first video section are stored (step S204). That is, the first video section is detected by analyzing the change point of the visual feature in the video. If the start time of the first video section and the person feature have already been stored (step S203: YES), the person feature matching unit 34 is derived by the person extraction and person feature deriving unit 32. The new person feature and the person feature stored in the person feature and start time storage unit 33 are compared (step S205). Then, the person feature matching section 34 determines that the utterance by the same person is continued when the person feature in both sections is more similar than the threshold set in advance (step S206: YES). If the video data has not ended (step S209: NO), the scene division unit 31 extracts a portion where the next video information has greatly changed (step S201).
[0084] 人物特徴量整合部 34は、両区間の人物特徴量が異なっている場合、映像中の発 話者が変化したと判定する (ステップ S206 : NO)。出力部 35は、一次記憶部 33に 記憶されている開始時間と、現在の映像区間の開始時間との間の区間を単一話者 の発話区間として出力する (ステップ S207)。同時に、一次記憶部 33は、人物特徴 量と開始時間を新規に得られたものに更新する (ステップ S208)。シーン分割部 31 は、映像データが終了していない場合 (ステップ S 209 : NO)、次の映像情報が大き く変化した部分を抽出する (ステップ S 201)。  [0084] The person feature matching section 34 determines that the speaker in the video has changed when the person features in the two sections are different (step S206: NO). The output unit 35 outputs a section between the start time stored in the primary storage unit 33 and the start time of the current video section as an utterance section of a single speaker (step S207). At the same time, the primary storage unit 33 updates the person characteristic amount and the start time to those newly obtained (step S208). If the video data has not ended (step S209: NO), the scene division unit 31 extracts a portion where the next video information has changed significantly (step S201).
[0085] 以上の処理が、映像データが終了するまで継続される。なお、映像特徴量としては 、色分布、形状、エッジヒストグラムなどの低次の特徴量や、目のカテゴリ、目,鼻, 口 の配置等の高次の特徴量が例示される。また、特徴量として、適切な一つを採用して もよいし、複数を組み合わせてもよい。また、人物が大きく動力ないという仮定を導入 すれば、人物領域を抽出せず、背景の情報も含めて視覚特徴量とすることも可能で ある。 [0085] The above processing is continued until the video data ends. Note that the image feature amounts include low-order feature amounts such as color distribution, shape, and edge histogram, eye categories, eyes, nose, and mouth. Higher-order feature amounts such as the arrangement of are exemplified. In addition, an appropriate one may be adopted as the feature quantity, or a plurality of feature quantities may be combined. In addition, if the assumption that a person does not have a large power is introduced, it is possible to extract a person region without using it as a visual feature quantity including background information.
[0086] 図 6は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の構成の更に他の一例を示すブロック図である。図 6は、音声に関する区間抽出 と映像に関する区間抽出の双方を行うコンテンツ区間抽出手段 5を示している。音声 区間抽出部 81は、例えば、図 2に示される音声分割部 21、音声特徴量導出部 22、 一次記憶部 23、音声特徴量整合部 24および出力部 25を備える。映像区間抽出部 82は、例えば、図 4に示されるシーン分割部 31、人物抽出および人物特徴量導出 部 32、一次記憶部 33、人物特徴量整合部 34および出力 35を備える。音声映像区 間抽出部 (音声映像区間統合手段) 83は、音声区間抽出部 81の出力と映像区間抽 出部 82の出力から、コンテンツ区間を決定する。音声映像区間抽出部 83は、例えば 、音声区間抽出部 81の出力と映像区間抽出部 82の出力がともに、発話者が変わつ たことを示す時点のみを採用してコンテンツ区間を決定する。  FIG. 6 is a block diagram showing still another example of the configuration of the content section extraction means 5 in the embodiment of the document association device of the present invention. FIG. 6 shows the content section extracting means 5 for performing both the section extraction for audio and the section extraction for video. The speech section extraction unit 81 includes, for example, a speech division unit 21, a speech feature quantity derivation unit 22, a primary storage unit 23, a speech feature quantity matching unit 24, and an output unit 25 shown in FIG. The video section extraction unit 82 includes, for example, a scene division unit 31, a person extraction and person feature amount derivation unit 32, a primary storage unit 33, a person feature amount matching unit 34, and an output 35 shown in FIG. The audio / video section extracting section (audio / video section integrating means) 83 determines a content section from the output of the audio section extracting section 81 and the output of the video section extracting section 82. The audio-video section extracting unit 83 determines a content section by adopting, for example, only the time when both the output of the audio section extracting unit 81 and the output of the video section extracting unit 82 indicate that the speaker has changed.
[0087] 図 7は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の動作の更に他の一例を示すフローチャートである。音声区間抽出部 81は、入 力映像の音声に基づいて、入力映像を複数の音声区間に分割する (ステップ S121) 。例えば、図 3に示す動作を実行する。一方、映像区間抽出部 82は、入力映像の映 像に基づいて、入力映像を複数の映像区間に分割する (ステップ S 122)。例えば、 図 5に示す動作を実行する。ただし、ステップ S121とステップ S122とは、同時に行つ ても良いし、ステップ S122を先に行っても良い。次に、音声映像区間抽出部(音声 映像区間統合手段) 83は、音声区間抽出部 81の出力と映像区間抽出部 82の出力 とに基づいて、コンテンツ区間を決定する (ステップ S123)。例えば、音声映像区間 抽出部 83は、音声区間抽出部 81の出力と映像区間抽出部 82の出力がともに、発 話者が変わったことを示す時点のみを採用してコンテンツ区間を決定する。  FIG. 7 is a flowchart showing still another example of the operation of the content section extracting means 5 in the embodiment of the document association device of the present invention. The audio section extraction unit 81 divides the input video into a plurality of audio sections based on the audio of the input video (Step S121). For example, the operation shown in FIG. 3 is performed. On the other hand, the video section extraction unit 82 divides the input video into a plurality of video sections based on the video of the input video (Step S122). For example, the operation shown in FIG. 5 is performed. However, step S121 and step S122 may be performed simultaneously, or step S122 may be performed first. Next, the audio / video section extraction unit (audio / video section integration means) 83 determines a content section based on the output of the audio section extraction unit 81 and the output of the video section extraction unit 82 (step S123). For example, the audio / video section extraction unit 83 determines the content section by adopting only the time when both the output of the audio section extraction unit 81 and the output of the video section extraction unit 82 indicate that the speaker has changed.
[0088] 図 8は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の構成の別の一例を示すブロック図である。図 8は、音声解析と映像解析の双方 を使ってコンテンツの単一話者区間の抽出を行うコンテンツ区間抽出手段 5を示して いる。 FIG. 8 is a block diagram showing another example of the configuration of the content section extraction means 5 in the embodiment of the document association device of the present invention. Figure 8 shows both audio and video analysis. 5 shows a content section extracting means 5 for extracting a single speaker section of the content by using.
[0089] シーン分割部 91は、コンテンツの特徴量を解析してシーンに分割する。シーン分 割部 91は、図 2に示された音声分割部 21のように音声特徴量を用いてもよいし、図 4 に示された人物抽出および人物特徴量導出部 32のように視覚的特徴量を用いても よい。また、音声特徴量と人物特徴量との和をとつてもよい。すなわち、発話者が変 化した時点を導出するために、映像中の視覚的特徴の変化点解析と音声中の音特 徴の変化点解析を行って双方の結果を統合するようにしてもょ 、。音声特徴量導出 部 92は、抽出されたシーンの音声特徴量を導出する。視覚的特徴量導出部 93は、 抽出されたシーンの視覚的特徴量を導出する。一次記憶部 94は、抽出された音声 特徴量及び視覚的特徴量が蓄積されて ヽな ヽ場合、それら音声特徴量および視覚 特徴量とその開始時間とを記憶する。既に、音声特徴量および視覚特徴量が記憶さ れている場合、音声特徴量整合部 95は、音声特徴量導出部 92から入力した音声特 徴量と、一次記憶部 94に記憶されている音声特徴量との比較を行う。同様に、視覚 的特徴量整合部 96は、視覚的特徴量導出部 93から入力した視覚特徴量と、一次記 憶部 94に記憶されている視覚特徴量との比較を行う。  [0089] The scene division unit 91 analyzes the feature amount of the content and divides it into scenes. The scene dividing unit 91 may use the audio feature amount as in the audio dividing unit 21 shown in FIG. 2, or may use the visual feature as in the person extraction and the human feature amount deriving unit 32 shown in FIG. A feature value may be used. Further, the sum of the voice feature amount and the person feature amount may be calculated. In other words, in order to derive the point in time when the speaker changes, analysis of the change point of the visual feature in the video and analysis of the change point of the sound characteristic in the voice may be performed, and the results of both may be integrated. ,. The audio feature value deriving unit 92 derives the audio feature value of the extracted scene. The visual feature quantity deriving unit 93 derives the visual feature quantity of the extracted scene. When the extracted voice feature and visual feature are accumulated, the primary storage unit 94 stores the voice feature and the visual feature and the start time thereof. If the speech feature and the visual feature have already been stored, the speech feature matching unit 95 compares the speech feature input from the speech feature derivation unit 92 with the speech stored in the primary storage unit 94. Comparison with the feature value is performed. Similarly, the visual feature matching unit 96 compares the visual feature input from the visual feature deriving unit 93 with the visual feature stored in the primary storage 94.
[0090] 音声特徴量導出部 92から入力した音声特徴量と一次記憶部 94に記憶されている 音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量 導出部 93から入力した視覚的特徴量と一次記憶部 94に記憶されている視覚的特徴 量との差があら力じめ定めた閾値よりも大きい場合、一次記憶部 94に記憶される音 声特徴量および視覚的特徴量をクリアして、現在の時間と開始時間とを出力部 97〖こ 送る。出力部 97はそれらを区間対応関係導出手段 7に出力する。なお、音声特徴量 導出部 92から入力した音声特徴量と一次記憶部 94に記憶されている音声特徴量と の差があら力じめ定めた閾値よりも大きぐかつ、視覚的特徴量導出部 93から入力し た視覚的特徴量と一次記憶部 94に記憶されている視覚的特徴量との差があらかじ め定めた閾値よりも大きい場合に、現在の時間と開始時間とを出力部 97に送るように してちよい。  When the difference between the audio feature amount input from the audio feature amount derivation unit 92 and the audio feature amount stored in the primary storage unit 94 is larger than a predetermined threshold, or the visual feature amount derivation unit 93 If the difference between the visual feature amount input from the CMM and the visual feature amount stored in the primary storage unit 94 is larger than a threshold value previously determined, the voice feature amount stored in the primary storage unit 94 and After clearing the visual features, the current time and start time are sent to the output unit 97. The output unit 97 outputs them to the section correspondence deriving means 7. Note that the difference between the speech feature amount input from the speech feature amount derivation unit 92 and the speech feature amount stored in the primary storage unit 94 is larger than a predetermined threshold, and the visual feature amount derivation unit If the difference between the visual feature amount input from 93 and the visual feature amount stored in the primary storage unit 94 is larger than a predetermined threshold, the current time and the start time are output to the output unit 97. You can send it to
[0091] 図 9は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手 段 5の動作の別の一例を示すフローチャートである。 FIG. 9 shows a content section extracting method in the embodiment of the document association apparatus of the present invention. 15 is a flowchart illustrating another example of the operation of Stage 5.
[0092] シーン分割部 91は、コンテンツの特徴量を解析してシーンに分割する (ステップ S1 41)。シーン分割部 91は、図 2に示された音声分割部 21のように音声特徴量を用い てもよいし、図 4に示された人物抽出および人物特徴量導出部 32のように視覚的特 徴量を用いてもよい。また、音声特徴量と人物特徴量との和をとつてもよい。すなわち 、発話者が変化した時点を導出するために、映像中の視覚的特徴の変化点解析と 音声中の音特徴の変化点解析を行って双方の結果を統合するようにしてもよい。音 声特徴量導出部 92は、抽出されたシーンの音声特徴量を導出する (ステップ S142) 。視覚的特徴量導出部 93は、抽出されたシーンの視覚的特徴量を導出する (ステツ プ S143)。ただし、ステップ S 142とステップ S 143とは、同時に行われても良いし、ス テツプ S143が咲きに行われても良い。一次記憶部 94は、抽出された音声特徴量及 び視覚的特徴量が蓄積されて ヽるか否かを判定する (ステップ S 144)。抽出された 音声特徴量及び視覚的特徴量が蓄積されていない場合 (ステップ S 144 : NO)、一 次記憶部 94は、それら音声特徴量および視覚特徴量とその開始時間とを記憶する( ステップ S 145)。 [0092] The scene division unit 91 analyzes the feature amount of the content and divides it into scenes (Step S141). The scene division unit 91 may use the audio feature amount as in the audio division unit 21 shown in FIG. 2, or may use the visual feature as in the person extraction and person characteristic amount derivation unit 32 shown in FIG. Collection may be used. Further, the sum of the voice feature amount and the person feature amount may be calculated. In other words, in order to derive the point in time when the speaker changes, analysis may be performed on the change point of the visual feature in the video and the change point analysis of the sound feature in the voice, and the results of both may be integrated. The voice feature deriving unit 92 derives the voice feature of the extracted scene (step S142). The visual feature deriving unit 93 derives the visual feature of the extracted scene (step S143). However, Step S142 and Step S143 may be performed at the same time, or Step S143 may be performed in full bloom. The primary storage unit 94 determines whether or not the extracted voice feature and visual feature are accumulated (step S144). If the extracted voice feature and visual feature have not been accumulated (step S144: NO), the primary storage unit 94 stores the voice feature and visual feature and the start time thereof (step S144: NO). S 145).
[0093] 既に、音声特徴量および視覚特徴量が記憶されている場合 (ステップ S 144 : YES )、音声特徴量整合部 95は、音声特徴量導出部 92から入力した音声特徴量と、一 次記憶部 94に記憶されている音声特徴量との比較を行う。同様に、視覚的特徴量 整合部 96は、視覚的特徴量導出部 93から入力した視覚特徴量と、一次記憶部 94 に記憶されて ヽる視覚特徴量との比較を行う (ステップ S 146)。  [0093] If the speech feature amount and the visual feature amount are already stored (step S144: YES), the speech feature amount matching unit 95 compares the speech feature amount input from the speech feature amount derivation unit 92 with the primary feature. A comparison is made with the audio feature amount stored in the storage unit 94. Similarly, the visual feature matching unit 96 compares the visual feature input from the visual feature deriving unit 93 with the visual feature stored in the primary storage unit 94 (step S146). .
[0094] 音声特徴量導出部 92から入力した音声特徴量と一次記憶部 94に記憶されている 音声特徴量との差があらかじめ定めた閾値よりも小さ 、 (類似して 、る)場合、かつ、 視覚的特徴量導出部 93から入力した視覚的特徴量と一次記憶部 94に記憶されて V、る視覚的特徴量との差があらかじめ定めた閾値よりも小さ!/、 (類似して!/、る)場合、 音声特徴量導出部 92及び視覚的特徴量導出部 93は、同一人物による発話が継続 していると判定する(ステップ S147 : YES)。シーン分割部 91は、データが終了して いない場合 (ステップ S 150 : NO)、シーン分割を継続する(ステップ S141)。  [0094] If the difference between the speech feature value input from the speech feature value derivation unit 92 and the speech feature value stored in the primary storage unit 94 is smaller than a predetermined threshold value (similarly, る), and The difference between the visual feature quantity input from the visual feature quantity deriving section 93 and the visual feature quantity stored in the primary storage section 94 is smaller than a predetermined threshold! In the case of /, (similarly! /, Ru), the audio feature quantity deriving unit 92 and the visual feature quantity deriving unit 93 determine that the utterance by the same person is continuing (step S147: YES). If the data is not completed (step S150: NO), the scene division section 91 continues the scene division (step S141).
[0095] 音声特徴量導出部 92から入力した音声特徴量と一次記憶部 94に記憶されている 音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量 導出部 93から入力した視覚的特徴量と一次記憶部 94に記憶されている視覚的特徴 量との差があらかじめ定めた閾値よりも大きい場合、音声特徴量導出部 92、または、 視覚的特徴量導出部 93は、同一人物による発話が終了したと判定する (ステップ S1 47 :NO) 0一次記憶部 94は、記憶される音声特徴量および視覚的特徴量をクリアし て、現在の時間と開始時間とを出力部 97に送る (ステップ S148)。出力部 97はそれ らを区間対応関係導出手段 7に出力する (ステップ S149)。 [0095] The voice feature amount input from the voice feature amount derivation unit 92 and stored in the primary storage unit 94 If the difference from the audio feature is larger than a predetermined threshold, or if the difference between the visual feature input from the visual feature deriving unit 93 and the visual feature stored in the primary storage unit 94 is If the threshold is larger than the predetermined threshold, the voice feature deriving unit 92 or the visual feature deriving unit 93 determines that the utterance by the same person has ended (step S147: NO) .0 The primary storage unit 94 Then, the stored voice feature and visual feature are cleared, and the current time and the start time are sent to the output unit 97 (step S148). The output unit 97 outputs them to the section correspondence relation deriving means 7 (step S149).
[0096] なお、音声特徴量導出部 92から入力した音声特徴量と一次記憶部 94に記憶され ている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、かつ、視覚的特 徴量導出部 93から入力した視覚的特徴量と一次記憶部 94に記憶されている視覚的 特徴量との差があらかじめ定めた閾値よりも大きい場合に、同一人物による発話が継 続していると判定し、現在の時間と開始時間とを出力部 97に送るようにしてもよい。 その場合、音声特徴量導出部 92から入力した音声特徴量と一次記憶部 94に記憶 されている音声特徴量との差があらかじめ定めた閾値よりも小さい場合、又は、視覚 的特徴量導出部 93から入力した視覚的特徴量と一次記憶部 94に記憶されている視 覚的特徴量との差があらかじめ定めた閾値よりも小さい場合に、同一人物による発話 が終了したと判定する。 [0096] Note that if the difference between the audio feature amount input from the audio feature amount derivation unit 92 and the audio feature amount stored in the primary storage unit 94 is larger than a predetermined threshold, and the visual feature amount When the difference between the visual feature amount input from the derivation unit 93 and the visual feature amount stored in the primary storage unit 94 is larger than a predetermined threshold, it is determined that the utterance by the same person is continued. Alternatively, the current time and the start time may be sent to the output unit 97. In this case, if the difference between the audio feature amount input from the audio feature amount derivation unit 92 and the audio feature amount stored in the primary storage unit 94 is smaller than a predetermined threshold, or if the visual feature amount derivation unit 93 If the difference between the visual feature amount input from the first and the visual feature amount stored in the primary storage unit 94 is smaller than a predetermined threshold, it is determined that the utterance by the same person has ended.
[0097] このようにすることにより、音声では区別できな力つた話者区間を映像力も識別した り、また、顔または服などの視覚的特徴量が類似していたため映像力もは検出困難 だった話者区間を音声特徴により抽出することができる。すなわち、コンテンツ区間を 精度よく検出することが可能になる。  [0097] By doing so, it is difficult to detect the image power in a speaker section that is too strong to be distinguished by audio, and it is difficult to detect the image power due to similar visual features such as faces or clothes. The speaker section can be extracted by the voice feature. That is, it is possible to accurately detect the content section.
[0098] 図 1に示された文書区間抽出手段 6は、文書記憶手段 4に記憶された文書情報か ら、文書中の各発話者に対応した区間 (文書区間)の抽出を行う。抽出された文書区 間においては、単一話者の発言に対応する文書情報が記述される。文書情報からの 発話者に対応した文書区間の抽出には、例えば、文書の書式情報を使う方法、文書 中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデー タを利用する方法がある。  The document section extraction means 6 shown in FIG. 1 extracts a section (document section) corresponding to each speaker in the document from the document information stored in the document storage means 4. Document information corresponding to the utterance of a single speaker is described in the extracted document section. To extract the document section corresponding to the speaker from the document information, for example, a method using the format information of the document, a method using the description about the speaker written in the document, and using metadata in the structured document There is a way.
[0099] 図 10は、本発明の文書対応付け装置の実施の形態における文書区間抽出手段 6 の動作の一例を示すフローチャートである。文書区間抽出手段 6は、文書記憶手段 4 に記憶された文書情報から、文書区切りを示す情報 (以下「文書区切情報」)を抽出 する (ステップ S161)。文書区切情報としては、文書中の改行 (空行)、文字フォント の相違、文字の色の相違、文字のレイアウト、発話者の名前の記載などに例示される 。次に、文書区間抽出手段 6は、文書区切情報に基づいて、最適な文書区間の抽出 方法を選択する (ステップ S162)。文書区切情報と文書区間の抽出方法との対応関 係 (テーブル)は、図示されない記憶部に格納されている。文書情報からの発話者に 対応した文書区間の抽出方法には、例えば、文書の書式情報を使う方法、文書中に 記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを 利用する方法がある。そして、文書区間抽出手段 6は、文書中の各発話者に対応し た区間 (文書区間)の抽出を行う。抽出された文書区間においては、単一話者の発 言に対応する文書情報が記述される。ただし、文書情報があらかじめ決まっている場 合、ステップ S161及び S162を省略し、文書情報に対応する文書区間の抽出方法 を直ぐに実行しても良い。 FIG. 10 shows a document section extracting unit 6 according to the embodiment of the document association apparatus of the present invention. 6 is a flowchart showing an example of the operation of FIG. The document section extraction means 6 extracts information indicating a document break (hereinafter, “document separation information”) from the document information stored in the document storage means 4 (step S161). Examples of the document delimiter information include a line feed (blank line) in the document, a difference in character font, a difference in character color, a character layout, and a description of a speaker's name. Next, the document section extraction means 6 selects an optimal document section extraction method based on the document section information (step S162). The correspondence (table) between the document division information and the method of extracting the document section is stored in a storage unit (not shown). The method of extracting the document section corresponding to the speaker from the document information includes, for example, a method using document format information, a method using a description about a speaker written in the document, and a method using metadata in a structured document. There is a way to do that. Then, the document section extracting means 6 extracts a section (document section) corresponding to each speaker in the document. In the extracted document section, document information corresponding to the utterance of a single speaker is described. However, if the document information is determined in advance, steps S161 and S162 may be omitted, and the method of extracting the document section corresponding to the document information may be immediately executed.
以下、文書区間抽出手段 6が実行する文書区間の抽出方法の具体例を説明する。 図 11A—図 11Dは、本発明の文書対応付け方法の実施の形態における文書の書 式情報を利用する方法の一例を示す図である。図 11Aに示す例では、発話者間の 発言に対して空行が挿入されている。よって、文書区間抽出手段 6は、空行をもとに 文書区間を抽出することができる。図 11Bに示す例では、対談における文書が例示 されている。そして、ホストの発言が斜字で表示されている。よって、文書区間抽出手 段 6は、ゲストの発言内容とホストの発言内容とを識別して、文書区間の抽出を行うこ とができる。図 11Cに示す例では、発話者ごとに色が異なっている。複数の発話者を 区別する際によく利用される。よって、文書区間抽出手段 6は、色情報を用いて文書 区間を抽出することができる。図 11Dに示す例では、発話者ごとに記載場所が整理 されている。このように発話者ごとに記載場所が整理されている場合には、発話者の 名前が直接記入されていなくても、文書区間抽出手段 6は、単一発話者と推定される 区間を抽出することができる。なお、ここで抽出した区間はあくまで候補であり、単一 発話者の区間で区切られていることが望ましいが、厳密に単一発話者の発言でまと まっていなくてもよい。なお、図 11A—図 11Dを参照して説明される方法では、文書 の構造解析の一例が実施されていることになる。 Hereinafter, a specific example of the document section extraction method executed by the document section extraction means 6 will be described. FIG. 11A to FIG. 11D are diagrams showing an example of a method of using document format information in the embodiment of the document association method of the present invention. In the example shown in FIG. 11A, a blank line is inserted for a comment between speakers. Therefore, the document section extracting means 6 can extract the document section based on the blank line. In the example shown in FIG. 11B, a document in a conversation is illustrated. The remarks of the host are displayed in oblique characters. Therefore, the document section extraction unit 6 can extract the document section by identifying the content of the guest's statement and the content of the host's statement. In the example shown in FIG. 11C, the color is different for each speaker. Often used to distinguish between multiple speakers. Therefore, the document section extracting means 6 can extract the document section using the color information. In the example shown in Fig. 11D, the place to be described is arranged for each speaker. In this way, when the description places are arranged for each speaker, even if the name of the speaker is not directly entered, the document section extracting means 6 extracts the section estimated to be a single speaker. be able to. Note that the section extracted here is only a candidate, and it is desirable that the section is divided by the section of a single speaker. You don't have to. In the method described with reference to FIGS. 11A to 11D, an example of the structure analysis of the document is performed.
[0101] 図 12A—図 12Cは、本発明の文書対応付け方法の実施の形態における文書の書 式情報を利用する方法の他の一例を示す図である。図 12A—図 12Cは、文書中に 記入された発話者に関する記述を利用して文書区間を抽出する方法を示している。 図 12Aに示す例では、発言の前に「名前:」の形式で発話者が記入されている。文書 区間抽出手段 6は、「名前:」に基づいて文書区間を抽出することができる。図 12Bに 示す例では、名前の代わりに、「Question」、「Answer」のような表現が使われてい る。文書区間抽出手段 6は、「Question」、「Answer」に基づいて文書区間を抽出 することができる。図 12Cに示す例では、発言者の名前が別カラムで表示されており 、ドラマの台本や議事録などで広く用いられる。こうした情報を用いれば、文書区間 抽出手段 6は、容易に発話者および発話者区間に関する情報を文書力 抽出するこ とができる。なお、図 12A—図 12Cを参照して説明される方法でも、文書の構造解析 の一例が実施されていることになる。  FIG. 12A to FIG. 12C are diagrams showing another example of the method of using the document format information in the embodiment of the document association method of the present invention. FIGS. 12A to 12C show a method of extracting a document section using a description about a speaker entered in a document. In the example shown in FIG. 12A, the speaker is written in the form of “name:” before the utterance. The document section extracting means 6 can extract a document section based on “name:”. In the example shown in Figure 12B, expressions such as "Question" and "Answer" are used instead of names. The document section extracting means 6 can extract a document section based on “Question” and “Answer”. In the example shown in FIG. 12C, the names of the speakers are displayed in a separate column, and are widely used in drama scripts and minutes. If such information is used, the document section extracting means 6 can easily extract the information on the speaker and the speaker section in terms of document power. It should be noted that the method described with reference to FIGS. 12A to 12C also implements an example of document structure analysis.
[0102] 図 13は、本発明の文書対応付け方法の実施の形態における文書の書式情報を利 用する方法の更に他の一例を示す図である。図 13は、構造ィ匕文書におけるタグを利 用して文書区間の抽出する方法を示している。文書区間抽出手段 6は、例えば「Spe aker」タグによって文書区間の抽出することができる。なお、図 11A—図 13に例示さ れた文書から文書区間を抽出する方法以外にも、文書の書式情報や発話者に関す る記述を利用した文書区間抽出は可能である。また、文書区間抽出手段 6は、これら の方法を組み合わせてより高精度に発話者区間を抽出するということも可能である。 さらに、文書区間抽出手段 6は、音声と同様に、文書中の記述の会話相当部の口癖 や言い回しのような会話特徴の変化にもとづいて文書区間を導出してもよい。なお、 図 13を参照して説明される方法でも、文書の構造解析の一例が実施されていること になる。  FIG. 13 is a diagram showing still another example of a method of using document format information in the embodiment of the document association method of the present invention. FIG. 13 shows a method of extracting a document section using a tag in a structured document. The document section extracting means 6 can extract a document section using, for example, a “Speaker” tag. In addition to the method of extracting a document section from the document illustrated in FIGS. 11A to 13, the document section extraction using the format information of the document and the description about the speaker is also possible. Further, the document section extracting means 6 can extract the speaker section with higher accuracy by combining these methods. Further, the document section extracting means 6 may derive a document section based on a change in conversation characteristics such as a habit or a phrase of a conversation-equivalent part of the description in the document, similarly to the voice. Note that, even in the method described with reference to FIG. 13, an example of the structure analysis of the document is performed.
[0103] 次に、本発明の文書対応付け装置の実施の形態におけ区間対応関係導出手段 7 について説明する。図 14は、本発明の文書対応付け装置の実施の形態における区 間対応関係導出手段 7の構成の一例を示すブロック図である。図 14に示す例では、 区間対応関係導出手段 7は、コンテンツ長正規ィ匕部 41と、文書長正規化部 42と、区 間整合度導出部(区間整合手段) 43と、区間対応関係記憶部 44と、区間統合部 45 と、出力部 46とを含む。コンテンツ長正規ィ匕部 41は、抽出された各区間におけるコン テンッ長の正規化を行う。文書長正規化部 42は、各文書区間の長さを正規化する。 区間整合度導出部(区間整合手段) 43は、コンテンツ区間と文書区間の対応関係を 導出する。区間対応関係記憶部 44は、区間毎の対応関係を記憶する。区間統合部 45は、隣接する区間を統合してコンテンツと文書とを一対一に対応付ける。出力部 4 6は、対応関係を出力する。 Next, the section correspondence deriving means 7 in the embodiment of the document association apparatus of the present invention will be described. FIG. 14 is a block diagram showing an example of the configuration of the interval correspondence deriving means 7 in the embodiment of the document association device of the present invention. In the example shown in Figure 14, The section correspondence deriving means 7 includes a content length normalizing section 41, a document length normalizing section 42, a section consistency deriving section (section matching means) 43, a section correspondence storing section 44, and a section integrating section. 45 and an output unit 46. The content length normalizing unit 41 normalizes the content length in each extracted section. The document length normalizing unit normalizes the length of each document section. The section matching degree deriving unit (section matching means) 43 derives the correspondence between the content section and the document section. The section correspondence storage unit 44 stores the correspondence for each section. The section integration unit 45 integrates adjacent sections and associates the content with the document on a one-to-one basis. The output unit 46 outputs the correspondence.
[0104] 次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段 7が実行する対応関係導出方法について説明する。図 15は、本発明の文書対応付 け方法の実施の形態における区間対応関係導出手段 7が実行する対応関係導出方 法の一例を示すフローチャートである。図 16A及び図 16Bは、対応関係導出方法に おけるコンテンツ情報と文書情報との対応関係を示す図である。図 17は、対応関係 導出方法における正規ィ匕を説明する図である。なお、図 16に示す例では、説明簡略 化のため、コンテンツ区間抽出手段 5によって抽出された話者区間が 6区間([a]— [f ])、文書区間抽出手段 6によって抽出された文書区間が 7区間([1] [7] )であると する。 Next, a description will be given of a correspondence deriving method executed by the section correspondence deriving means 7 in the embodiment of the document matching method of the present invention. FIG. 15 is a flowchart showing an example of a correspondence relation deriving method executed by the section correspondence deriving means 7 in the embodiment of the document correspondence method of the present invention. FIG. 16A and FIG. 16B are diagrams showing the correspondence between content information and document information in the correspondence deriving method. FIG. 17 is a diagram for explaining the normalization in the correspondence deriving method. In the example shown in FIG. 16, for the sake of simplicity, the speaker section extracted by the content section extracting means 5 is 6 sections ([a]-[f]), and the document section extracted by the document section extracting means 6 is It is assumed that there are seven sections ([1] [7]).
[0105] コンテンツ長正規ィ匕部 41は、抽出された各区間におけるコンテンツ長の正規ィ匕を 行う(ステップ S301)。正規ィ匕に際して、図 17 (a)に示すようにコンテンツが音声を含 む場合、まず、各区間中の無音部を抽出する。次に、抽出された無音部を各区間か ら除く。そして、各区間の長さが音声部分の長さに比例し、総和が 1. 0となるように正 規化する。この状態が図 17 (b)である。なお、図 16A (a)および図 17 (a)に示すコン テンッ情報は無音部を含むとする。また、図 17 (c)に示すように、無音部を除かずに 、単なる区間長に比例するように正規ィ匕を行ってもよい。コンテンツが音声を含まな い場合、映像情報カゝら人物検出を行い、人物を含まない場合を各区間カゝら除いて各 区間の長さが音声部分の長さに比例し、総和が 1. 0となるように正規ィ匕してもよい。 人物を含まない区間を除かずに、単なる区間長に比例するように正規ィ匕を行ってもよ い。 [0106] 文書長正規化部 42は、各文書区間の長さを正規化する (ステップ S302)。例えば 、各区間の長さを各区間に含まれる文書量 (又は文字量)に比例した長さとする。双 方を正規ィ匕してならべた結果の一例が図 13Aに示されている。図 16A(a)はコンテ ンッ情報、図 16A(b)は文書情報をそれぞれ示す。 [0105] The content length regular shading section 41 performs regular length shaping of the content length in each extracted section (step S301). At the time of regular dagger, if the content includes audio as shown in FIG. 17 (a), first, a silent part in each section is extracted. Next, the extracted silent parts are removed from each section. Then, the length of each section is proportional to the length of the audio part, and the sum is normalized to be 1.0. This state is shown in FIG. It is assumed that the content information shown in FIGS. 16A (a) and 17 (a) includes a silent part. Also, as shown in FIG. 17 (c), the normalization may be performed in proportion to the mere section length without removing the silent part. If the content does not include audio, video information is used to detect people, and if no content is included, the length of each section is proportional to the length of the audio part except for each section, and the sum is 1 0 may be applied. Instead of excluding a section that does not include a person, normalization may be performed in proportion to a simple section length. The document length normalizing section 42 normalizes the length of each document section (step S302). For example, the length of each section is set to a length proportional to the document amount (or character amount) included in each section. FIG. 13A shows an example of a result obtained by normalizing both sides. FIG. 16A (a) shows the content information, and FIG. 16A (b) shows the document information.
[0107] 区間整合度導出部 43は、コンテンツ区間と文書区間の個別の対応関係を導出す る (ステップ S303)。例えば、正規ィ匕軸上での重なりを調べて、最も重なった領域と対 応関係があるとする。図 16Aに示す例では、その対応関係は、文書情報で考えると、 [l]→[a], [2]→[a], [3]→[b], [4]→[c], [5]→[d], [6]→[f], [7]→[f]とな る。コンテンツ情報で考えると、 [a]→[2], [b]→[3], [c]→[4], [d]→[5], [e]→ [5], [f]→[7]となる。区間対応関係記憶部 44は、区間整合度導出部 43が導出し た区間毎の対応関係を記憶する。 The section matching degree deriving unit 43 derives an individual correspondence between the content section and the document section (Step S303). For example, it is assumed that the overlap on the regular axis is checked and that there is a corresponding relationship with the most overlapped area. In the example shown in FIG. 16A, the correspondence relationship is, in terms of document information, [l] → [a], [2] → [a], [3] → [b], [4] → [c], [5] → [d], [6] → [f], [7] → [f]. Considering content information, [ a ] → [2], [b] → [3], [c] → [4], [d] → [5], [e] → [5], [f] → [7]. The section correspondence storage unit 44 stores the correspondence for each section derived by the section consistency degree derivation unit 43.
[0108] 区間統合部 45は、コンテンツと文書とが完全に一対一に対応している力否かを判 定する (ステップ S 304)。コンテンツと文書とが完全に一対一に対応していない場合( ステップ S304:NO)、区間統合部 45は、区間対応関係記憶部 44が記憶する区間 毎の対応関係に基づいて、コンテンツと文書とが完全に一対一に対応するまで、隣 接する区間を統合して、コンテンツと文書が一対一に対応付くようにする (ステップ S3 04、 S305)o例えば、同一区間に対応する隣接区間を統合する処理 (例示: [1]→[ a]、 [2]→[a]であったとき、 [1]と [2]を統合する)を繰り返すことにより、コンテンツと 文書との一対一の対応を得ることができる。コンテンツと文書とが完全に一対一に対 応した場合 (ステップ S304:YES)、出力部 46は、区間統合部 45による統合後の区 間を一つの区間とみなして、対応関係を出力する (ステップ S306)。 [0108] The section integration unit 45 determines whether or not the content and the document completely correspond one-on-one (Step S304). If the content and the document do not completely correspond one-to-one (step S304: NO), the section integration unit 45 determines the content and the document based on the correspondence between the sections stored in the section correspondence storage unit 44. Until the files completely correspond one-to-one, the adjacent sections are integrated so that the content and the document are associated one-to-one (steps S304, S305) o For example, the adjacent sections corresponding to the same section are integrated By repeating the process (example: [1] → [a], [2] → [a], integrating [1] and [2]), a one-to-one correspondence between content and document Obtainable. When the content and the document completely correspond one-to-one (step S304: YES), the output unit 46 regards the section integrated by the section integration unit 45 as one section and outputs the correspondence ( Step S306).
[0109] 図 16Aに示す例では、上記の処理により、図 13Bに示すように、 [[1] [2] [a]],  [0109] In the example shown in FIG. 16A, the above processing allows [[1] [2] [a]],
[[3] [b]], [[4]^[c]], [[5]^[d] [e]], [[6][7] [f]]の対応関係および区 間を抽出することができる。以上のように、区間対応関係導出手段 7は、抽出されたコ ンテンッ区間の区間長と抽出された文書区間の文書量とを比較することにより対応付 けを行う。  [[3] [b]], [[4] ^ [c]], [[5] ^ [d] [e]], [[6] [7] [f]] Can be extracted. As described above, the section correspondence relation deriving means 7 performs the correspondence by comparing the section length of the extracted content section with the document amount of the extracted document section.
[0110] 区間対応関係導出手段 7は、コンテンツの変化の確信度を導入して対応関係を導 出することもできる。すなわち、コンテンツ区間抽出手段 5から、導出された区間情報 に加えて、区間抽出のために用いた変化点抽出の確信度をスコアとして入力し、変 化点抽出の確信度を用いて対応関係を導出する。例えば、変化の確信度が高い領 域において、区間統合部 45が、変化の確信度の高いスコアをもつ両区間に対して、 統合処理を行う代わりに、一方を別の区間と統合する。図 18A及び図 18Bは、対応 関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。す なわち、図 15Aに示す例において、 [d]→[e]の変化の確信度が 0. 90 (高い)、 [e] →[f]の確信度が 0. 40 (低い)である場合、長さの短い [e]を [f]と統合して対応関係 を導出する。この結果、図 15Bに示すように確信度を反映した対応関係を導出するこ とがでさる。 [0110] The section correspondence deriving means 7 can also derive the correspondence by introducing the certainty factor of the change in the content. That is, the section information derived from the content section extracting means 5 In addition to the above, the confidence of the change point extraction used for the section extraction is input as a score, and the correspondence is derived using the confidence of the change point extraction. For example, in a region where the degree of certainty of change is high, the section integrating unit 45 integrates one of the sections having a score of high degree of certainty of change with another section instead of performing the integration processing. FIGS. 18A and 18B are diagrams showing the correspondence between content information and document information in the correspondence derivation method. That is, in the example shown in FIG. 15A, the confidence of the change from [d] to [e] is 0.90 (high) and the confidence of [e] → [f] is 0.40 (low). In this case, [e] with short length is integrated with [f] to derive the correspondence. As a result, as shown in FIG. 15B, it is possible to derive a correspondence that reflects the certainty factor.
[0111] また、コンテンツ区間の確信度のかわりに、文書区間抽出の際の確信度を利用した り、または、コンテンツ区間と文書区間の双方で確信度を利用したり場合にも、同様 の処理が可能である。  [0111] Similar processing is performed when the certainty factor at the time of document section extraction is used instead of the certainty factor of the content section, or when the certainty factor is used at both the content section and the document section. Is possible.
[0112] 図 19は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手 段 7の構成の他の一例を示すブロック図である。区間対応関係導出手段 7は、話者 情報記憶部 51と、話者識別部 52と、文書話者情報抽出部 53と、区間整合度導出部 54とを含む。話者情報記憶部 51は、人物を特定するための特徴量と人物との対応 関係を記憶する。話者識別部 52は、話者を特定する。文書話者情報抽出部 53は、 文書中から話者に関する情報を抽出する。区間整合度導出部 54は、話者情報をもと に区間の整合を行う。  FIG. 19 is a block diagram showing another example of the configuration of the section correspondence deriving means 7 in the embodiment of the document association device of the present invention. The section correspondence relation deriving means 7 includes a speaker information storage unit 51, a speaker identification unit 52, a document speaker information extraction unit 53, and a section matching degree derivation unit 54. The speaker information storage unit 51 stores a correspondence between a feature amount for specifying a person and the person. The speaker identification unit 52 specifies a speaker. The document speaker information extracting unit 53 extracts information on the speaker from the document. The section matching degree deriving unit 54 performs section matching based on the speaker information.
[0113] 話者情報記憶部 51は、あらかじめ、人物を特定するための特徴量 (音声特徴量ま たは視覚的特徴量を含む。)と人物との対応関係を記録する。特徴量は、人物識別 のためにあら力じめ設定される。例えば、音声特徴量を用いる場合には、特定の音 素あるいは単語に関する音高、ピッチといった発話者毎に異なる話者固有の特徴量 を使用する。また、言い回し、口癖といった情報を利用してもよい。視覚的特徴量を 用いる場合には、話者の顔についての特徴として、目,鼻, 口の形状や位置関係な どを使用する。特徴量として、顔認識技術や話者識別技術として利用される既知の 特徴量を利用することもできる。  [0113] The speaker information storage unit 51 records in advance a correspondence between a feature amount (including a voice feature amount or a visual feature amount) for specifying a person and the person. The feature amount is set loosely for person identification. For example, when using the speech feature, a speaker-specific feature such as a pitch and a pitch related to a specific phoneme or a word is used for each speaker. In addition, information such as wording and habit may be used. When visual features are used, the shape, positional relationship, etc. of the eyes, nose, and mouth are used as features of the speaker's face. Known features used as face recognition technology or speaker identification technology can also be used as features.
[0114] 話者識別部 52は、コンテンツ区間抽出手段 5からコンテンツ区間の情報およびそ の区間に含まれる特徴量を入力し、それらを、話者情報記憶部 51に記憶されている 特徴量と比較することによって 1つまたは複数の区間における話者を特定する。この ように、特徴量整合識別手段としての話者識別部 52は、話者情報記憶部 51が記憶 する特徴量とコンテンツ特徴量抽出手段 (具体的にはコンテンツ区間抽出手段 5)が 抽出した特徴量との比較を行って話者の識別を行う。話者識別部 52は、例えば、入 力特徴量がもっとも近い話者情報記憶部 51中の人物を抽出する。会議やテレビ番 組等であらかじめ登場人物が限られている場合には、それらの制約情報を考慮して 識別を行ってもよいし、候補となる話者をすベて列挙してもよい。文書話者情報抽出 部 53は、 1つまたは複数の文書区間における話者を特定することによって、文書中 から話者に関する情報 (話者情報)を抽出する。区間整合度導出部 54は、話者情報 をもとに区間の整合を行う。すなわち、話者区間と文書区間とを対応付ける。 [0114] The speaker identification unit 52 outputs the information of the content section and the information thereof from the content section extraction means 5. A speaker in one or a plurality of sections is specified by inputting the feature amounts included in the section and comparing them with the feature amounts stored in the speaker information storage unit 51. As described above, the speaker identification unit 52 as the feature amount matching identification unit includes the feature amount stored in the speaker information storage unit 51 and the feature extracted by the content feature amount extraction unit (specifically, the content section extraction unit 5). The speaker is identified by comparing the amount. The speaker identification unit 52 extracts, for example, a person in the speaker information storage unit 51 having the closest input feature amount. If characters are limited in advance in a conference or TV program, etc., identification may be performed in consideration of such restriction information, or all speaker candidates may be listed. The document speaker information extraction unit 53 extracts information on a speaker (speaker information) from a document by specifying a speaker in one or a plurality of document sections. The section matching degree deriving unit 54 performs section matching based on the speaker information. That is, the speaker section is associated with the document section.
[0115] 次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段 7が実行する他の対応関係導出方法について説明する。図 20は、本発明の文書対 応付け方法の実施の形態における区間対応関係導出手段 7が実行する対応関係導 出方法の他の一例を示すフローチャートである。図 21及び図 22は、対応関係導出 方法におけるコンテンツ情報と文書情報との対応関係を示す図である。なお、この例 は、図 12A—図 13に示されるように話者情報が文書中に記述されて抽出可能である ときに有効である。 [0115] Next, another correspondence deriving method executed by the section correspondence deriving means 7 in the embodiment of the document association method of the present invention will be described. FIG. 20 is a flowchart showing another example of the correspondence derivation method executed by the section correspondence derivation means 7 in the embodiment of the document correspondence method of the present invention. FIG. 21 and FIG. 22 are diagrams showing the correspondence between the content information and the document information in the correspondence deriving method. This example is effective when the speaker information is described in the document and can be extracted as shown in FIGS. 12A to 13.
[0116] 話者識別部 52は、コンテンツ区間抽出手段 5から入力されるコンテンツ区間の情報 およびその区間に含まれる特徴量に基づいて、それらを、話者情報記憶部 51に記 憶されている特徴量と比較することによって 1つまたは複数の区間における話者 (話 者区間)を特定する (ステップ S321)。一方、文書話者情報抽出部 53は、 1つまたは 複数の文書区間における話者を特定することによって、文書中から話者に関する情 報 (話者情報)を抽出する (ステップ S322)。ただし、ステップ S321とステップ S322と は、同時に行っても良いし、ステップ S322を先に行っても良い。次に、区間整合度 導出部 54は、話者情報をもとに区間の整合を行う。すなわち、話者区間と文書区間 とを対応付ける (ステップ S323)。このようにして、動作する。  [0116] The speaker identifying section 52 stores the information of the content section input from the content section extracting means 5 and the feature amount included in the section in the speaker information storage section 51. The speaker (speaker section) in one or a plurality of sections is specified by comparing with the feature amount (step S321). On the other hand, the document speaker information extraction unit 53 extracts information on the speaker (speaker information) from the document by specifying the speaker in one or a plurality of document sections (step S322). However, step S321 and step S322 may be performed simultaneously, or step S322 may be performed first. Next, the section matching degree deriving unit 54 performs section matching based on the speaker information. That is, the speaker section is associated with the document section (step S323). It operates in this way.
[0117] 図 21 ( (a)コンテンツ情報、(b)文書情報)に示す区間整合部 54による区間の正豪 雨処理の一例では、話者識別部 52がコンテンツ情報(:コンテンツ区間)にもとづい て話者情報記憶部 51に記憶されて ヽる特徴量を利用して話者を特定した結果であ る人物識別情報に従って区間の対応がとられている。区間の対応に関しては、ダイ ナミックプログラミングマッチング(DPマッチング)の手法を導入してもよ!/、。コンテンツ 情報にもとづく話者識別の精度が低く図 21に例示するように「田中」が抽出されない 場合には、「田中」をスキップして対応をとることができる。 The section matching unit 54 shown in FIG. 21 ((a) content information, (b) document information) In an example of the rain processing, a person as a result of the speaker identification unit 52 specifying the speaker using the feature amount stored in the speaker information storage unit 51 based on the content information (: content section). Sections are assigned according to the identification information. Regarding section support, a method of dynamic programming matching (DP matching) may be introduced! When the accuracy of speaker identification based on content information is low and “Tanaka” is not extracted as illustrated in FIG. 21, “Tanaka” can be skipped and a response can be taken.
[0118] 図 22 ( (a)コンテンツ情報、(b)文書情報)は、話者識別部 52が複数の人物を候補 として抽出した場合の区間整合度導出部 54による区間の整合処理例を説明するた めの説明図である。この場合、文書情報にもとづく人物情報によって、 [f]の領域は 文書情報の [7]の区間と対応付けることができる。なお、「高木」や「山下」は文書中 に登場しないとする。また、 [a]の区間は、「山本」または「田中」の区間である力 両 方の名前が文書情報にでているため、 [1]および [2]と対応付けられる。  FIG. 22 ((a) content information, (b) document information) describes an example of section matching processing by section matching degree deriving section 54 when speaker identifying section 52 extracts a plurality of persons as candidates. FIG. In this case, the area [f] can be associated with the section [7] of the document information by the person information based on the document information. Note that "Takagi" and "Yamashita" do not appear in the document. Also, the section [a] is associated with [1] and [2] because the names of both the powers, which are sections of “Yamamoto” or “Tanaka”, appear in the document information.
[0119] 図 23は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手 段 7の構成の別の一例を示すブロック図である。区間対応関係導出手段 7は、音声 認識を行って入力音声に対する候補テキストを生成する音声認識部 61と、候補テキ ストと文書記憶手段 4中の文書の対応付けを行う候補テキスト文書対応部 62とを含 む。  FIG. 23 is a block diagram showing another example of the configuration of the section correspondence deriving means 7 in the embodiment of the document association device of the present invention. The section correspondence deriving means 7 includes a speech recognition unit 61 that performs speech recognition to generate a candidate text for the input speech, and a candidate text document correspondence unit 62 that associates the candidate text with the document in the document storage unit 4. including.
[0120] 図 24は、候補テキスト文書対応部 62の構成の一例を示すブロック図である。候補 テキスト文書対応部 62は、候補テキスト内単語抽出部 71と、文書区間内単語抽出部 72と、候補テキスト Z文書区間対応部 74と、候補テキスト Z文書区間単語類似度計 算部 73とを含む。候補テキスト内単語抽出部 71は、一つまたは複数の単語を区間 の候補テキストの中から抽出する。文書区間内単語抽出部 72は、各区間における一 つまたは複数の単語を抽出する。候補テキスト Z文書区間対応部 74は、各区間の 対応付けを行う。候補テキスト Z文書区間単語類似度計算部 73は、区間内距離を 算出する。  FIG. 24 is a block diagram showing an example of the configuration of the candidate text document corresponding unit 62. The candidate text document correspondence section 62 includes a candidate text word extraction section 71, a document section word extraction section 72, a candidate text Z document section correspondence section 74, and a candidate text Z document section word similarity calculation section 73. Including. The candidate text word extraction unit 71 extracts one or a plurality of words from the candidate text of the section. The intra-document section word extraction unit 72 extracts one or more words in each section. The candidate text Z document section correspondence unit 74 associates each section. The candidate text Z document section word similarity calculation unit 73 calculates the distance within the section.
[0121] 次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段 7が実行する別の対応関係導出方法について説明する。図 25は、本発明の文書対 応付け方法の実施の形態における区間対応関係導出手段 7が実行する対応関係導 出方法の別の一例を示すフローチャートである。図 26及び図 27は、対応関係導出 方法におけるコンテンツ情報と文書情報との対応関係を示す図である。コンテンツに は音声情報が含まれて 、るとする。 Next, another correspondence deriving method executed by the section correspondence deriving means 7 in the embodiment of the document associating method of the present invention will be described. FIG. 25 is a diagram showing the correspondence relation derivation performed by the section correspondence derivation means 7 in the embodiment of the document correspondence method of the present invention. It is a flowchart which shows another example of the output method. FIG. 26 and FIG. 27 are diagrams showing the correspondence between the content information and the document information in the correspondence deriving method. Assume that the content includes audio information.
音声認識部 61は、コンテンツ区間抽出手段 5から、コンテンツ区間についての情報 を入力される。また、コンテンツ記憶手段 3からコンテンツ情報を入力される。そして、 コンテンツ情報から音声情報を取り出し、音声認識を行って、入力音声に対する候補 テキストを生成する (ステップ S341)。音声認識方式については種々の手法があるが 、音素をもちいた認識方法、直接単語テンプレートを利用して音声認識する方法、話 者に合わせてテンプレートを変換する等、この実施の形態ではいずれの方法を用い てもよい。  The speech recognition unit 61 receives information on the content section from the content section extraction means 5. Also, content information is input from the content storage means 3. Then, voice information is extracted from the content information, voice recognition is performed, and a candidate text for the input voice is generated (step S341). There are various methods for the speech recognition method. However, in this embodiment, any of the following methods is used. May be used.
[0122] 候補テキスト文書対応部 62は、音声認識部 61からのコンテンツの各区間の候補テ キストをうけとり、候補テキストと文書記憶手段 4中の文書との対応付けを行う。  [0122] The candidate text document correspondence unit 62 receives the candidate text of each section of the content from the speech recognition unit 61, and associates the candidate text with the document in the document storage unit 4.
[0123] 候補テキスト文書対応部 62は、候補テキストにおける単語と、文書区間内の単語と を比較する。そして、一致した単語または類似した単語を含むコンテンツ区間と文書 区間とを対応付ける。具体的には、候補テキスト内単語抽出部 71が、各コンテンツ区 間に使用されているひとつまたは複数の単語を区間の候補テキストの中から抽出す る (ステップ S342)。文書区間内単語抽出部 72は、各文書区間における一つまたは 複数の単語を抽出する(ステップ S343)。なお、ステップ S342とステップ S343とは 同時に行っても良いし、ステップ S343を先に行っても良い。次に、候補テキスト Z文 書区間単語類似度計算部 73は、コンテンツ区間における単語と文書区間における 単語の類似度を判定するための区間内距離の計算を行う (ステップ S344)。候補テ キスト Z文書区間対応部 74は、区間内距離に基づいて、抽出された単語組を比較 することによりコンテンツ区間と文書区間との対応付けを行い、結果を出力する (ステ ップ S 345)。  [0123] The candidate text document corresponding unit 62 compares a word in the candidate text with a word in the document section. Then, the content section including the matched word or the similar word is associated with the document section. Specifically, the candidate text word extraction unit 71 extracts one or more words used in each content section from the section candidate texts (step S342). The intra-document section word extraction unit 72 extracts one or more words in each document section (step S343). Step S342 and step S343 may be performed simultaneously, or step S343 may be performed first. Next, the candidate text Z document section word similarity calculation unit 73 calculates an intra-section distance for determining the similarity between the word in the content section and the word in the document section (step S344). The candidate text Z document section correspondence unit 74 associates the content section with the document section by comparing the extracted word sets based on the intra-section distance, and outputs the result (step S345). ).
[0124] 図 26は、候補テキスト文書区間対応部 74による候補テキストと文書記憶手段 4中 の文書との対応付けの一例を示している。(a)はコンテンツ区間、(b)はコンテンツ区 間の開始時間、(c)は候補テキスト単語、(d)は文書区間内単語、(e)は文書区間、 ( f)は文書をそれぞれ示す。図 26に示す例では、各文書区間では、その文書区間に おいて重要である単語 (文書区間の内容を特徴付ける基本単語)として、(情報通信 、音声認識、意味情報、 ···)、(セキュリティ、ビデオカメラ、動物体、 ···)、(実験、 · · 、(研究、 ···)が抽出されている。各音声映像区間すなわちコンテンツ区間(13:4 1、 15:41)、(15:41、 16:50)、(16:50、 20:15)、(20:15、 21:13)、…力も、 おのおの、(音声認識、意味情報、 ···)、(情報通信、意味情報, ···)、(セキュリティ 、 ···)、(研究、 ···)といった単語が抽出されている。このような単語は、文書中から 単に名詞だけを抽出することによって得られるものでもよいし、あら力じめ辞書に重要 単語を登録しておき、辞書中の単語と整合をとることで抽出されもよい。また、単語の 使用頻度解析によって、重要度を決定してもよい。 FIG. 26 shows an example of the correspondence between the candidate text and the document in the document storage unit 4 by the candidate text document section correspondence unit 74. (A) shows the content section, (b) shows the start time of the content section, (c) shows the candidate text word, (d) shows the word in the document section, (e) shows the document section, and (f) shows the document . In the example shown in FIG. 26, in each document section, (Information communication, speech recognition, semantic information, ...), (security, video camera, moving object, ...), (experimental, · · ·, (Research, · · · ·) are extracted.Each audiovisual section, that is, content section (13:41, 15:41), (15:41, 16:50), (16:50, 20 : 15), (20:15, 21:13), ... power, (voice recognition, semantic information, ...), (information communication, semantic information, ...), (security, ...) , (Research, ...) are extracted. Such words may be obtained by simply extracting nouns from the document, or register important words in the dictionary at first glance. In addition, it may be extracted by matching words in the dictionary, and by analyzing the frequency of use of words, the importance can be determined. Good.
[0125] 図 27は、候補テキスト文書区間対応部 74による候補テキストと文書記憶手段 4中 の文書との対応付けの一例を示している。(a)はコンテンツ区間、(b)はコンテンツ区 間の時間、(c)は文書区間、(d)は文書、(e)対応関係表をそれぞれ示す。候補テキ スト文書区間対応部 74は、単語列の類似度 (重複度)を測定することにより、図 27(e )に対応関係表として例示するように、各区間の対応関係を導出することができる。な お、図 26に例示するように、対応がとれない場合には「対応がとれない」としてしまつ てもよい。また、コンテンツ区間と文書区間との対応関係導出にはダイナミックプログ ラミングマッチング (DPマッチング)の手法を利用してもよ!/、。  FIG. 27 shows an example of the correspondence between the candidate text and the document in the document storage unit 4 by the candidate text document section correspondence unit 74. (A) shows a content section, (b) shows a time between content sections, (c) shows a document section, (d) shows a document, and (e) shows a correspondence table. The candidate text document section correspondence unit 74 can derive the correspondence relation of each section by measuring the similarity (duplication degree) of the word strings as exemplified in the correspondence table in FIG. 27 (e). it can. As shown in FIG. 26, if no response can be taken, "No response" may be made. Also, the method of dynamic programming matching (DP matching) may be used to derive the correspondence between the content section and the document section!
[0126] 以上のようにして、コンテンツ区間と文書区間の対応付けが実現される。対応付け は、上記の区間対応関係導出手段 7の各構成(図 14、図 19、図 23)の組み合わせ によって実現してもよい。  As described above, the association between the content section and the document section is realized. The association may be realized by a combination of the components (FIGS. 14, 19, and 23) of the above-described section correspondence deriving means 7.
[0127] 図 1に示された出力手段 8は、区間対応関係導出手段 7が導出した音声または映 像と文書区間との対応関係を出力する。出力の形態の一例として、図 27(e)に示さ れているように、文書の区間の先頭にコンテンツ中の時間を付与した対応関係表が ある。この他、コンテンツの時間情報と、文書区間との対応関係を表す表現であれば 、どのような出力形態であってもよい。  [0127] The output unit 8 shown in Fig. 1 outputs the correspondence between the audio or video derived by the section correspondence deriving unit 7 and the document section. As an example of the output form, as shown in FIG. 27 (e), there is a correspondence table in which the time in the content is added to the head of the section of the document. In addition, any output form may be used as long as it represents the correspondence between the time information of the content and the document section.
産業上の利用可能性  Industrial applicability
[0128] 本発明は、コンテンツと文書†青報とを自動的に対応付けることによってコンテンツと 文書情報を同期表示する情報提示装置や、テキスト情報でコンテンツの該当部分を 検索したり頭だしをするマルチメディア表示装置や、マルチメディア検索装置と 、つ た用途に適用可能である。また、議事録等を参照しながら実際のコンテンツを確認す る議会映像閲覧装置や、講演の資料と講演内容を参照する講演支援システム、教育 支援システムといった用途に適用可能である。 The present invention relates to an information presenting apparatus for automatically displaying content and document information by automatically associating the content with the document and the blue report, and for displaying a corresponding portion of the content with text information The present invention can be applied to a multimedia display device for searching and searching, and a multimedia searching device. It is also applicable to applications such as a congressional video browsing device that checks actual contents while referring to the minutes of a meeting, a lecture support system that refers to lecture materials and lecture contents, and an education support system.

Claims

請求の範囲 The scope of the claims
[1] (a)複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも 一方を含むコンテンツと、前記コンテンツの内容を記述した文書とを準備するステツ プと、  [1] (a) a step of preparing a content including at least one of audio information and video information in which a plurality of speakers appear as speakers, and a document describing the content of the content;
(b)前記コンテンツと前記文書との対応関係を、話者単位で導出するステップと を具備する  (b) deriving a correspondence relationship between the content and the document for each speaker.
文書対応付け方法。  Document matching method.
[2] 請求項 1に記載の文書対応付け方法にお!、て、 [2] The document matching method described in claim 1!
前記 (b)ステップは、  The step (b) comprises:
(b 1 )前記コンテンッを話者単位で分割して複数のコンテンッ区間とするステップと  (b 1) dividing the content for each speaker into a plurality of content sections;
(b2)前記文書を話者単位で分割して複数の文書区間とするステップと、 (b3)前記複数のコンテンツ区間と前記複数の文書区間との対応付けを行うステツ プと (b2) a step of dividing the document into a plurality of document sections by dividing the document into speakers, and (b3) a step of associating the plurality of content sections with the plurality of document sections.
を備える  Have
文書対応付け方法。  Document matching method.
[3] 請求項 2に記載の文書対応付け方法にぉ 、て、 [3] According to the document matching method described in claim 2,
前記 (b2)ステップは、  The step (b2) includes:
(b21)前記複数の話者の一人から前記複数の話者の他の一人へ発話者が変化し た時点をコンテンツ力も抽出するステップと、  (b21) extracting also the content power when the speaker changes from one of the plurality of speakers to another of the plurality of speakers;
(b22)前記発話者が変化した時点に基づいて、前記コンテンツを話者単位で分割 するステップと  (b22) dividing the content for each speaker based on a point in time when the speaker changes;
を含む  including
文書対応付け方法。  Document matching method.
[4] 請求項 3記載の文書対応付け方法にお ヽて、 [4] In the document matching method according to claim 3,
前記 (b21)ステップは、  The (b21) step is:
(b211)前記コンテンツは前記音声情報であり、前記発話者の音声の変化点を前 記音声情報力 抽出するステップを含む 文書対応付け方法。 (b211) the content is the voice information, and the method includes a step of extracting a change point of the voice of the speaker as the voice information power; Document matching method.
[5] 請求項 3記載の文書対応付け方法にお 、て、 [5] In the document matching method according to claim 3,
前記 (b21)ステップは、  The (b21) step is:
(b212)前記コンテンツは前記映像情報であり、前記発話者の映像の変化点前記 を映像情報力 抽出するステップを含む  (b212) the content is the video information, and a step of extracting a change point of the video of the speaker from the video information is included.
文書対応付け方法。  Document matching method.
[6] 請求項 1乃至 3のいずれか一項に記載の文書対応付け方法において、  [6] The document matching method according to any one of claims 1 to 3,
前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報であ る  The content is audio-video information in which the audio information and the video information are synchronized.
文書対応付け方法。  Document matching method.
[7] 請求項 3または 5に記載の文書対応付け方法にぉ 、て、 [7] The document matching method according to claim 3 or 5,
前記 (b21)ステップは、  The (b21) step is:
(b213)前記音声情報の音特徴の変化点解析を行い、前記発話者が変化した時 点を導出するステップを含む  (b213) analyzing a change point of a sound feature of the voice information to derive a time point at which the speaker changes.
文書対応付け方法。  Document matching method.
[8] 請求項 3または 5に記載の文書対応付け方法にぉ 、て、 [8] The document association method according to claim 3 or 5,
前記 (b21)ステップは、  The (b21) step is:
(b214)前記映像情報の視覚的特徴の変化点解析を行!ヽ、前記発話者が変化し た時点を導出するステップを含む  (b214) Analyze the changing points of the visual features of the video information!含 む, including a step of deriving a point in time when the speaker changes
文書対応付け方法。  Document matching method.
[9] 請求項 3または 6に記載の文書対応付け方法にお 、て、 [9] In the document matching method according to claim 3 or 6,
前記 (b21)ステップは、  The (b21) step is:
(b215)前記映像情報の視覚的特徴の変化点解析及び前記音声情報の音特徴の 変化点解析を行い、双方の結果を統合して、前記発話者が変化した時点を導出する ステップを含む  (b215) performing a change point analysis of a visual feature of the video information and a change point analysis of a sound feature of the audio information, and integrating both results to derive a time point at which the speaker changes.
文書対応付け方法。  Document matching method.
[10] 請求項 4乃至 9の 、ずれか一項に記載の文書対応付け方法にお!、て、  [10] The document association method according to any one of claims 4 to 9, wherein
前記 (b)ステップは、 (b4)前記文書の構造解析を行!ヽ、前記文書を話者単位で分割するステップを備 える The step (b) comprises: (b4) analyzing the structure of the document and providing a step of dividing the document into speakers
文書対応付け方法。  Document matching method.
[11] コンピュータ上で使用したときに、請求項 1乃至 10のいずれか一項に記載された全 てのステップを実行するプログラムコード手段を有するコンピュータプログラム製品。  [11] A computer program product having program code means for performing all the steps of any one of claims 1 to 10 when used on a computer.
[12] コンピュータにより読み取り可能な記憶手段に記憶された、請求項 11に記載された プログラムコード手段を有するコンピュータプログラム製品。  [12] A computer program product having the program code means according to claim 11, stored in a computer-readable storage means.
[13] 複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一 方を含むコンテンツにつ 、て、前記コンテンツを話者単位で分割して複数のコンテン ッ区間を抽出するコンテンツ区間抽出部と、  [13] For content including at least one of audio information and video information in which a plurality of speakers appear as speakers, the content is divided for each speaker to extract a plurality of content sections. A content section extraction unit;
前記コンテンツの内容を記述した文書を話者単位で分割して複数の文書区間を抽 出する文書区間抽出部と、  A document section extracting unit for extracting a plurality of document sections by dividing a document describing the content of the content for each speaker;
前記複数のコンテンツ区間と前記複数の文書区間との対応関係を導出する区間対 応関係導出部と  A section correspondence deriving unit for deriving a correspondence between the plurality of content sections and the plurality of document sections;
を具備する  Have
文書対応付け装置。  Document association device.
[14] 請求項 13に記載の文書対応付け装置において、 [14] The document association apparatus according to claim 13,
前記コンテンツは前記音声情報であり、  The content is the audio information,
前記コンテンツ区間抽出部は、前記音声情報の音特徴を解析して前記複数のコン テンッ区間を抽出する  The content section extraction unit extracts a plurality of content sections by analyzing a sound feature of the audio information.
文書対応付け装置。  Document association device.
[15] 請求項 13に記載の文書対応付け装置において、 [15] The document association apparatus according to claim 13,
前記コンテンツは前記映像情報であり、  The content is the video information,
前記コンテンツ区間抽出部は、前記映像情報の視覚的特徴を解析して前記複数 のコンテンツ区間を抽出する  The content section extraction unit extracts the plurality of content sections by analyzing visual characteristics of the video information.
文書対応付け装置。  Document association device.
[16] 請求項 13に記載の文書対応付け装置において、 [16] The document association device according to claim 13,
前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報であ り、 The content is audio-video information in which the audio information and the video information are synchronized. And
前記コンテンツ区間抽出部は、前記音声情報の音特徴の解析の結果と前記映像 情報の視覚的特徴の解析の結果とを統合して前記複数のコンテンツ区間を抽出する 文書対応付け装置。  The document associating device, wherein the content section extracting unit extracts the plurality of content sections by integrating a result of analysis of a sound feature of the audio information and a result of analysis of a visual feature of the video information.
[17] 請求項 16に記載の文書対応付け装置において、  [17] The document association device according to claim 16,
コンテンツ抽出部は、  The content extraction unit
前記音声情報の音特徴を解析して、前記音声情報を話者単位に分割して複数の 音声区間を抽出する音声区間抽出部と、  A voice section extracting unit that analyzes a sound feature of the voice information and divides the voice information into speaker units to extract a plurality of voice sections;
前記映像情報の視覚的特徴を解析して、前記映像情報を話者単位に分割して複 数の映像区間を抽出する映像区間抽出部と、  A video section extracting unit that analyzes a visual feature of the video information and divides the video information into speakers to extract a plurality of video sections;
前記複数の音声区間に関する複数の音声区間情報と、前記複数の映像区間に関 する複数の映像区間情報とに基づいて、前記複数のコンテンツ区間を抽出する音声 映像区間統合部と  An audio / video section integrating unit that extracts the plurality of content sections based on a plurality of pieces of audio section information regarding the plurality of audio sections and a plurality of pieces of video section information regarding the plurality of video sections;
を含む  including
文書対応付け装置。  Document association device.
[18] 請求項 13に記載の文書対応付け装置において、 [18] The document association device according to claim 13,
前記コンテンツ区間抽出部は、前記コンテンツにおける前記複数の話者の一人か ら前記複数の話者の他の一人へ発話者が変化した時点としての発話者変化点を抽 出して、前記複数のコンテンツ区間を抽出する  The content section extraction unit extracts a speaker change point as a point in time when a speaker changes from one of the plurality of speakers to another of the plurality of speakers in the content, and extracts the plurality of contents. Extract intervals
文書対応付け装置。  Document association device.
[19] 請求項 18に記載の文書対応付け装置において、 [19] The document association device according to claim 18,
前記コンテンツは前記音声情報を含み、  The content includes the audio information,
前記コンテンツ区間抽出部は、前記音声情報における発話の高さ、発話速度、発 話の大きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、前記発話 者変化点を抽出する  The content section extraction unit extracts the speaker change point based on a change in a characteristic of at least one of prosodic information of the utterance height, utterance speed, and utterance size in the audio information.
文書対応付け装置。  Document association device.
[20] 請求項 18に記載の文書対応付け装置において、 [20] The document association device according to claim 18,
前記コンテンツは前記音声情報を含み、 前記コンテンツ区間抽出部は、前記音声情報における会話形態の変化に基づい て、前記発話者変化点を抽出する The content includes the audio information, The content section extraction unit extracts the speaker change point based on a change in a conversation mode in the audio information.
文書対応付け装置。  Document association device.
[21] 請求項 18に記載の文書対応付け装置において、  [21] The document association apparatus according to claim 18, wherein
前記コンテンツは前記映像情報を含み、  The content includes the video information,
前記コンテンツ区間抽出部は、前記映像情報における人物の視覚的特徴の変化 に基づいて、前記発話者変化点を抽出する  The content section extraction unit extracts the speaker change point based on a change in a visual characteristic of a person in the video information.
文書対応付け装置。  Document association device.
[22] 請求項 18に記載の文書対応付け装置において、 [22] The document association device according to claim 18,
前記コンテンツは前記映像情報を含み、  The content includes the video information,
前記コンテンツ区間抽出部は、前記映像情報における人物の顔特徴の変化に基 づいて、前記発話者変化点を抽出する  The content section extraction unit extracts the speaker change point based on a change in a facial feature of a person in the video information.
文書対応付け装置。  Document association device.
[23] 請求項 18に記載の文書対応付け装置において、 [23] The document association device according to claim 18,
前記コンテンツは前記映像情報を含み、  The content includes the video information,
前記コンテンツ区間抽出部は、前記映像情報における人物の衣服の視覚的特徴 の変化に基づいて、前記発話者変化点を抽出する  The content section extraction unit extracts the speaker change point based on a change in a visual characteristic of a person's clothing in the video information.
文書対応付け装置。  Document association device.
[24] 請求項 13乃至 23のいずれか一項に記載の文書対応付け装置において、  [24] The document association device according to any one of claims 13 to 23,
前記文書区間抽出部は、前記文書の書式情報に基づいて、前記複数の文書区間 を抽出する  The document section extracting unit extracts the plurality of document sections based on format information of the document.
文書対応付け装置。  Document association device.
[25] 請求項 13乃至 23のいずれか一項に記載の文書対応付け装置において、  [25] The document association apparatus according to any one of claims 13 to 23,
前記文書区間抽出部は、前記文書に記入された発話者に関する記述に基づいて 、前記複数の文書区間を抽出する  The document section extracting unit extracts the plurality of document sections based on a description about a speaker written in the document.
文書対応付け装置。  Document association device.
[26] 請求項 13乃至 23のいずれか一項に記載の文書対応付け装置において、  [26] The document association apparatus according to any one of claims 13 to 23,
前記文書区間抽出部は、前記文書における構造化文書のタグ情報に基づいて、 前記複数の文書区間を抽出する The document section extraction unit, based on tag information of a structured document in the document, Extracting the plurality of document sections
文書対応付け装置。  Document association device.
[27] 請求項 13乃至 23のいずれか一項に記載の文書対応付け装置において、  [27] The document association device according to any one of claims 13 to 23,
前記文書区間抽出部は、前記文書における会話特徴の変化に基づいて、前記複 数の文書区間を抽出する  The document section extraction unit extracts the plurality of document sections based on a change in a conversation feature in the document.
文書対応付け装置。  Document association device.
[28] 請求項 13乃至 27のいずれか一項に記載の文書対応付け装置において、  [28] The document association apparatus according to any one of claims 13 to 27,
前記区間対応関係導出部は、前記複数のコンテンツ区間の区間長と前記複数の 文書区間の文書量とを比較に基づいて、前記複数のコンテンツ区間と前記複数の文 書区間との対応付けを行う  The section correspondence deriving unit associates the plurality of content sections with the plurality of document sections based on a comparison between the section lengths of the plurality of content sections and the document amounts of the plurality of document sections.
文書対応付け装置。  Document association device.
[29] 請求項 28の文書対応付け装置において、 [29] The document association device according to claim 28,
前記区間対応関係導出部は、前記複数のコンテンツ区間及び前記複数の文書区 間に対するダイナミックプログラミングマッチングの実行結果に基づ 、て、前記対応 付けを行う  The section correspondence deriving unit performs the association based on a result of performing dynamic programming matching for the plurality of content sections and the plurality of document sections.
文書対応付け装置。  Document association device.
[30] 請求項 13乃至 29のいずれか一項に記載の文書対応付け装置において、  [30] The document association apparatus according to any one of claims 13 to 29,
前記区間対応関係導出部は、  The section correspondence deriving unit,
前記複数のコンテンツ区間のうちの少なくとも一つにおける発話者を特定するコン テンッ話者識別部と、  A content speaker identification unit for identifying a speaker in at least one of the plurality of content sections;
前記複数の文書区間のうちの少なくとも一つにおける発話者を特定して、前記発話 者の情報としての話者情報を得る文書話者情報抽出部と、  A document speaker information extracting unit that specifies a speaker in at least one of the plurality of document sections and obtains speaker information as information of the speaker;
前記話者情報に基づいて、前記複数のコンテンツ区間と前記複数の文書区間との 整合を行う区間整合部と  A section matching unit that matches the plurality of content sections and the plurality of document sections based on the speaker information;
を含む  including
文書対応付け装置。  Document association device.
[31] 請求項 30の文書対応付け装置において、 [31] The document association apparatus according to claim 30,
前記コンテンツ話者識別部は、 前記複数のコンテンツ区間のうちの少なくとも一つにおける特徴量を抽出するコン テンッ特徴量抽出部と、 The content speaker identification unit, A content feature amount extraction unit for extracting a feature amount in at least one of the plurality of content sections;
前記特徴量と前記発話者とを対応させて記憶する話者情報記憶部と、 記憶された前記特徴量と抽出された特徴量との比較に基づ 、て、前記発話者の識 別を行う特徴量整合識別部と  A speaker information storage unit for storing the feature amount and the speaker in association with each other; and identifying the speaker based on a comparison between the stored feature amount and the extracted feature amount. Feature matching identification unit
を含む  including
文書対応付け装置。  Document association device.
[32] 請求項 30又は 31に記載の文書対応付け装置にお!、て、  [32] The document association apparatus according to claim 30 or 31, wherein
前記コンテンツ話者識別部は、前記音声情報における声の高さ、声の長さ、声の強 さのうちの少なくとも一つの韻律情報の特徴に基づいて、前記発話者を特定する 文書対応付け装置。  The content speaker identification unit identifies the speaker based on at least one feature of prosody information of voice pitch, voice length, and voice strength in the voice information. .
[33] 請求項 30又は 31に記載の文書対応付け装置にお!、て、 [33] The document association device according to claim 30 or 31, wherein
前記コンテンツ話者識別部は、前記音声情報における会話形態の表す特徴量に 基づいて、前記発話者を特定する  The content speaker identification unit specifies the speaker based on a feature amount representing a conversation mode in the voice information.
文書対応付け装置。  Document association device.
[34] 請求項 30又は 31に記載の文書対応付け装置にお!、て、 [34] The document association device according to claim 30 or 31, wherein
前記コンテンツ話者識別部は、前記映像情報における人物の視覚的特徴量に基 づいて、前記発話者を特定する  The content speaker identification unit specifies the speaker based on a visual feature of a person in the video information.
文書対応付け装置。  Document association device.
[35] 請求項 34に記載の文書対応付け装置において、 [35] The document association device according to claim 34,
前記コンテンツ話者識別部は、前記人物の視覚的特徴として人物の顔特徴を用い る  The content speaker identification unit uses a facial feature of a person as a visual feature of the person.
文書対応付け装置。  Document association device.
[36] 請求項 30乃至 35のいずれか一項に記載の文書対応付け装置において、  [36] The document association apparatus according to any one of claims 30 to 35,
前記文書話者情報抽出部は、前記文書に記入された発話者に関する記述に基づ いて、前記発話者を特定する  The document speaker information extracting unit specifies the speaker based on a description about the speaker written in the document.
文書対応付け装置。  Document association device.
[37] 請求項 30乃至 35のいずれか一項に記載の文書対応付け装置において、 前記文書話者情報抽出部は、前記文書における構造化文書のメタデータに基づ いて、話者を特定する [37] The document association apparatus according to any one of claims 30 to 35, The document speaker information extracting unit specifies a speaker based on metadata of a structured document in the document
文書対応付け装置。  Document association device.
[38] 請求項 30乃至 37のいずれか一項に記載の文書対応付け装置において、  [38] The document association device according to any one of claims 30 to 37,
前記区間整合部は、前記複数のコンテンツ区間の各々における発話者と前記複数 の文書区間の各々における発話者とがー致するように、前記複数のコンテンツ区間と 前記複数の文書区間とを対応付ける  The section matching unit associates the plurality of content sections with the plurality of document sections such that a speaker in each of the plurality of content sections matches a speaker in each of the plurality of document sections.
文書対応付け装置。  Document association device.
[39] 請求項 38に記載の文書対応付け装置において、 [39] The document association device according to claim 38,
前記区間整合部は、前記複数のコンテンツ区間と前記複数の文書区間とに対する ダイナミックプログラミングマッチングの実行結果に基づ 、て、前記複数のコンテンツ 区間と前記複数の文書区間とを対応付ける  The section matching unit associates the plurality of content sections with the plurality of document sections based on a result of performing dynamic programming matching on the plurality of content sections and the plurality of document sections.
文書対応付け装置。  Document association device.
[40] 請求項 13乃至 39のいずれか一項に記載の文書対応付け装置において、  [40] The document association apparatus according to any one of claims 13 to 39,
前記コンテンツは音声情報を含み、  The content includes audio information,
前記複数のコンテンツ区間における発話内容を抽出して発話テキスト情報を出力 する音声認識部を更に具備し、  A speech recognition unit that extracts speech content in the plurality of content sections and outputs speech text information;
前記区間対応関係導出部は、前記発話テキスト情報と前記文書の文書情報との類 似度に基づいて、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける 文書対応付け装置。  The document association device, wherein the section correspondence deriving unit associates the plurality of content sections with the plurality of document sections based on a similarity between the utterance text information and the document information of the document.
[41] 請求項 40に記載の文書対応付け装置において、 [41] The document association device according to claim 40,
前記区間対応関係導出部は、前記発話テキスト情報で出現する単語と前記文書情 報で出現する単語との間のダイナミックプログラムマッチングの実行結果に基づいて 、前記発話テキスト情報と前記文書情報とを整合させる  The section correspondence deriving unit matches the utterance text information with the document information based on a dynamic program matching result between words appearing in the utterance text information and words appearing in the document information. Let
請求項 38記載の文書対応付け装置。  39. The document association device according to claim 38.
[42] 請求項 40または請求項 41記載の文書対応付け装置にぉ 、て、 [42] The document association device according to claim 40 or 41,
前記区間対応関係導出部は、  The section correspondence deriving unit,
前記発話テキスト情報における前記複数のコンテンツ区間の各々で使用されてい る一つまたは複数の第 1基本単語と、前記複数の文書区間の各々で使用されている 一つまたは複数の第 2基本単語とをそれぞれ抽出する基本単語抽出部と、 Used in each of the plurality of content sections in the utterance text information. A basic word extraction unit that extracts one or more first basic words and one or more second basic words used in each of the plurality of document sections,
前記複数の第 1基本単語と、前記複数の第 2基本単語との間の類似度を測定する 基本単語群類似度導出部とを含み、  A basic word group similarity deriving unit that measures similarity between the plurality of first basic words and the plurality of second basic words,
前記類似度に基づいて、前記対応関係を導出する  Derive the correspondence based on the similarity
文書対応付け装置。  Document association device.
[43] 請求項 40または請求項 41記載の文書対応付け装置にぉ 、て、 [43] The document association device according to claim 40 or 41,
前記区間対応関係導出部は、前記類似度を、ダイナミックプログラミングマッチング により対応付けることによって対応関係を導出する  The section correspondence deriving unit derives a correspondence by associating the similarities by dynamic programming matching.
文書対応付け装置。  Document association device.
[44] 請求項 13乃至 43のいずれか一項に記載の文書対応付け装置において、  [44] The document associating device according to any one of claims 13 to 43,
前記コンテンツを入力するコンテンツ入力咅と、  A content input す る for inputting the content;
前記コンテンツを記憶するコンテンツ記憶部と、  A content storage unit for storing the content,
前記文書情報を入力する文書入力部と、  A document input unit for inputting the document information;
前記文書を記憶する文書記憶部と、  A document storage unit for storing the document,
前記対応関係に関する情報を出力する出力部と  An output unit that outputs information about the correspondence relationship;
を更に具備する  Further comprising
文書対応付け装置。  Document association device.
PCT/JP2005/000333 2004-01-14 2005-01-14 Document correlation device and document correlation method WO2005069171A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005517060A JP4600828B2 (en) 2004-01-14 2005-01-14 Document association apparatus and document association method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-006713 2004-01-14
JP2004006713 2004-01-14

Publications (1)

Publication Number Publication Date
WO2005069171A1 true WO2005069171A1 (en) 2005-07-28

Family

ID=34792152

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/000333 WO2005069171A1 (en) 2004-01-14 2005-01-14 Document correlation device and document correlation method

Country Status (2)

Country Link
JP (1) JP4600828B2 (en)
WO (1) WO2005069171A1 (en)

Cited By (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519987A (en) * 2003-12-05 2007-07-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Integrated analysis system and method for internal and external audiovisual data
JP2007304642A (en) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> Document data sorting device and document data sorting program
JP2008059343A (en) * 2006-08-31 2008-03-13 Fuji Xerox Co Ltd Information processing system and program
WO2008050718A1 (en) * 2006-10-26 2008-05-02 Nec Corporation Right information extracting device, right information extracting method and program
JP2009015672A (en) * 2007-07-06 2009-01-22 Mitsubishi Electric Corp Face detector and face detecting method
JP2012146302A (en) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd Device and method for converting voice into text
JP2013008357A (en) * 2011-06-03 2013-01-10 Apple Inc Automatic creation of mapping between text data and audio data
JP2015127929A (en) * 2013-12-27 2015-07-09 昭仁 島田 Method for determining optimal team for discussing subject composed of members whose conversation was recorded
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
JPWO2014199602A1 (en) * 2013-06-10 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speaker identification method, speaker identification device, and information management method
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
WO2018078463A1 (en) * 2016-10-24 2018-05-03 Sony Mobile Communications Inc Methods, computer program products and devices for automatically synchronizing an audio track with a plurality of pages
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
JP7436460B2 (en) 2018-09-11 2024-02-21 シナプティクス インコーポレイテッド Neural network inference on protected data

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (en) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> Support device for production of multimedia data
JP2000235585A (en) * 1998-12-30 2000-08-29 Xerox Corp Method/system for cross index of text and sound based on topic
JP2000352995A (en) * 1999-06-14 2000-12-19 Canon Inc Conference voice processing method, recording device, and information storage medium
JP2001325250A (en) * 2000-05-15 2001-11-22 Ricoh Co Ltd Minutes preparation device, minutes preparation method and recording medium
JP2003255979A (en) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> Data editing method, device and program
JP2004007358A (en) * 2002-03-28 2004-01-08 Fujitsu Ltd Program, device and method for generating synchronized contents information

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173297A (en) * 1997-08-29 1999-03-16 Hitachi Ltd Recognition method using timely relation of multi-modal expression with voice and gesture
JPH11289512A (en) * 1998-04-03 1999-10-19 Sony Corp Editing list preparing device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (en) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> Support device for production of multimedia data
JP2000235585A (en) * 1998-12-30 2000-08-29 Xerox Corp Method/system for cross index of text and sound based on topic
JP2000352995A (en) * 1999-06-14 2000-12-19 Canon Inc Conference voice processing method, recording device, and information storage medium
JP2001325250A (en) * 2000-05-15 2001-11-22 Ricoh Co Ltd Minutes preparation device, minutes preparation method and recording medium
JP2003255979A (en) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> Data editing method, device and program
JP2004007358A (en) * 2002-03-28 2004-01-08 Fujitsu Ltd Program, device and method for generating synchronized contents information

Cited By (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
JP2007519987A (en) * 2003-12-05 2007-07-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Integrated analysis system and method for internal and external audiovisual data
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007304642A (en) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> Document data sorting device and document data sorting program
JP2008059343A (en) * 2006-08-31 2008-03-13 Fuji Xerox Co Ltd Information processing system and program
WO2008050718A1 (en) * 2006-10-26 2008-05-02 Nec Corporation Right information extracting device, right information extracting method and program
JP5218766B2 (en) * 2006-10-26 2013-06-26 日本電気株式会社 Rights information extraction device, rights information extraction method and program
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2009015672A (en) * 2007-07-06 2009-01-22 Mitsubishi Electric Corp Face detector and face detecting method
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
JP2012146302A (en) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd Device and method for converting voice into text
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
JP2013008357A (en) * 2011-06-03 2013-01-10 Apple Inc Automatic creation of mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JPWO2014199602A1 (en) * 2013-06-10 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speaker identification method, speaker identification device, and information management method
US9911421B2 (en) 2013-06-10 2018-03-06 Panasonic Intellectual Property Corporation Of America Speaker identification method, speaker identification apparatus, and information management method
JP2015127929A (en) * 2013-12-27 2015-07-09 昭仁 島田 Method for determining optimal team for discussing subject composed of members whose conversation was recorded
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018078463A1 (en) * 2016-10-24 2018-05-03 Sony Mobile Communications Inc Methods, computer program products and devices for automatically synchronizing an audio track with a plurality of pages
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
JP7436460B2 (en) 2018-09-11 2024-02-21 シナプティクス インコーポレイテッド Neural network inference on protected data

Also Published As

Publication number Publication date
JP4600828B2 (en) 2010-12-22
JPWO2005069171A1 (en) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4600828B2 (en) Document association apparatus and document association method
JP5104762B2 (en) Content summarization system, method and program
US11417343B2 (en) Automatic speaker identification in calls using multiple speaker-identification parameters
JP4466564B2 (en) Document creation / viewing device, document creation / viewing robot, and document creation / viewing program
CN110517689B (en) Voice data processing method, device and storage medium
CN108242238B (en) Audio file generation method and device and terminal equipment
JP2002091482A (en) Method and device for detecting feeling and recording medium
JP6280312B2 (en) Minutes recording device, minutes recording method and program
JP5779032B2 (en) Speaker classification apparatus, speaker classification method, and speaker classification program
JP2009216986A (en) Voice data retrieval system and voice data retrieval method
JP4405418B2 (en) Information processing apparatus and method
JP2010011409A (en) Video digest apparatus and video editing program
US20240064383A1 (en) Method and Apparatus for Generating Video Corpus, and Related Device
JP2014146066A (en) Document data generation device, document data generation method, and program
JP2008032825A (en) Speaker display system, speaker display method and speaker display program
JP5997813B2 (en) Speaker classification apparatus, speaker classification method, and speaker classification program
JP2001272990A (en) Interaction recording and editing device
JP5713782B2 (en) Information processing apparatus, information processing method, and program
JP4631251B2 (en) Media search device and media search program
WO2022041177A1 (en) Communication message processing method, device, and instant messaging client
JP2019213160A (en) Video editing apparatus, video editing method, and video editing program
US20240127857A1 (en) Face-aware speaker diarization for transcripts and text-based video editing
US20240134909A1 (en) Visual and text search interface for text-based video editing
US20240127858A1 (en) Annotated transcript text and transcript thumbnail bars for text-based video editing
US20240127820A1 (en) Music-aware speaker diarization for transcripts and text-based video editing

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005517060

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase